WebSphere Enterprise Service Bus, Versione 6.2.0 Sistemi operativi: AIX, HP-UX, i5/OS, Linux, Solaris, Windows


Valutazione dello stato del sistema

La prima operazione da eseguire quando si verifica una condizione anomala è quella di sondare il sistema globale per vedere quanto il sistema sia operativo e quanto del sistema sia reso ‘fuori servizio’ da qualunque sia stato lo stimolo esterno che ha provocato tale condizione.

Rispondere ad una serie predefinita di domande per valutare il grado di interruzione. Il seguente elenco fornisce gli esempi delle domande predefinite concepite per facilitare la raccolta delle informazioni appropriate:
  1. Il sistema sta ancora effettuando del lavoro?

    Determinare se il sistema è ancora operativo. Spesse volte, un sistema può essere operativo, ma a causa del sovraccarico o di un'ottimizzazione non corretta, o entrambi, il sistema non completa le attività rapidamente e/o prova a eseguire del lavoro che di fatto non riesce.

    La prova tornasole per ciascuna di queste domande sarà specifica alla natura della soluzione distribuita.

  2. Quale supporto di gestione degli errori è integrato nell'applicazione?

    Se vi sono molti tentativi automatizzati e diverse logiche di supporto, l'applicazione stessa potrebbe impedire che gli errori si manifestino all'operatore IT.

    Tali condizioni devono essere note e documentate per essere utilizzate come riferimento dal team per il ripristino.

Le operazioni che è possibile eseguire per facilitare la valutazione dello stato del sistema includono quanto segue:
  1. Controllare che il server sia almeno in esecuzione.

    Si visualizza il PID o si ha un feedback positivo dal gestore distribuzione mediante la console di gestione?

  2. Controllare se vi sono dei blocchi nel/i database o un traffico anomalo del database.
    La maggior parte dei database avranno delle funzioni per osservare i blocchi. In base alla topologia di distribuzione, vi possono essere più database.
    • Database del motore di messaggistica
    • Database di Business Process Container
    • WebSphere Process Server Common Database (Eventi non riusciti e dati della relazione)
  3. Controllare lo stato del sistema di messaggistica.
    Controllare gli eventi o i messaggi nelle seguenti ubicazioni:
    • Destinazioni del controllo e della conservazione di Business Process Choreographer
    • Numero di eventi nono riusciti
    • Numero di messaggi sulle destinazione del modulo delle soluzioni
  4. Controllare che il database sia in funzione.

    È possibile eseguire alcune semplici operazioni SELECT, su dati non bloccati in un periodo di tempo ragionevole?

  5. Controllare se vi sono degli errori nel log del database.

Se il database non funziona correttamente, il ripristino del database (così che possa almeno rilasciare i blocchi ed eseguire delle semplici operazioni SELECT) è fondamentale per il ripristino del sistema.

Se il sistema di messaggistica non funziona correttamente, anche il ripristino del sottosistema di messaggistica, così che possa almeno essere visualizzato e gestito, è fondamentale per il ripristino del sistema.

Nota: Un approccio ‘dal basso verso l'alto’ non è sempre decisivo. Tuttavia, le probabilità della riuscita di un ripristino variano in base a queste attività di base.

Da queste procedure di base e dalle attività relative al controllo della funzionalità, ora occorre iniziare a osservare delle situazioni specifiche. Verranno descritti i pattern, verranno fornite specifiche e approfondimenti su ciò che in realtà si verifica.

Tener presente che tale analisi della situazione è un'attività di sola lettura. Sebbene fornisca delle informazioni fondamentali da cui determinare le azioni di ripristino appropriate, non deve modificare lo stato del sistema sottoposto a revisione. Non è possibile prevedere e fornire delle azioni prescrittive per tutte le cause possibili dell'interruzione di un sistema. Ad esempio, considerare la seguente struttura ad albero delle decisioni:

Un diagramma che rappresenta la struttura ad albero delle decisioni per eseguire il ripristino.

Vi sono molte ampie categorie per esaminare l'evento di un'interruzione non pianificata. Tali ampie categorie avranno delle categorie secondarie e così via. La definizione delle azioni prescrittive per ciascun nodo e il nodo successivo dipenderà dai risultati di ciascun esame. Poiché questo tipo di relazione è difficile da convogliare nel formato di un documento, si consiglia l'utilizzo di uno strumento di supporto come IBM® Guided Activity Assist che guida interattivamente nel processo di indagine e decisionale. Man mano che si procede dal nodo iniziale a ciascun nodo child, è importante condurre il livello appropriato di analisi della situazione.


concept Argomento Concetto

Termini di utilizzo | Feedback


Icona data/ora Ultimo aggiornamento: 02 Luglio 2010


http://publib.boulder.ibm.com/infocenter/dmndhelp/v6r2mx/topic//com.ibm.websphere.wesb620.doc/doc/cpln_assess_sys_state.html
Copyright IBM Corporation 2005, 2010. Tutti i diritti riservati.
Questo centro informazioni utilizza la tecnologia Eclipse. (http://www.eclipse.org).