Die erste Maßnahme, die bei einer abnormalen Beendigung ergriffen werden sollte, besteht darin, sozusagen den Puls des Gesamtsystems zu messen und ein Gefühl dafür zu gewinnen, in welchem Maß das System tatsächlich funktionsfähig ist und welcher Anteil des Systems durch bestimmte externe Faktoren, die diesen Zustand verursacht haben, 'außer Betrieb' ist.
Stellen Sie fest, ob das System noch betriebsbereit (aktiv) ist. Sehr häufig ist ein System noch betriebsbereit, führt aber als Folge von Überlastung und/oder ungeeigneter Optimierung Tasks nicht rasch aus und/oder versucht, Arbeit durchzuführen, die tatsächlich fehlschlägt.
Der alles entscheidende Test für jede dieser Fragen gilt dabei jeweils konkret für die Spezifik der implementierten Lösung.
Wenn eine große Menge an Logik für automatisierte Wiederholungen und diverse Unterstützung vorhanden ist, könnte die Anwendung selbst einige Fehler abschirmen, sodass diese sich gegenüber dem IT-Operator nicht manifestieren.
Diese Bedingungen müssen bekannt sein und vom Wiederherstellungsteam zu Referenzzwecken dokumentiert werden.
Können Sie die Prozess-ID sehen oder erhalten Sie über die Administrationskonsole eine positive Rückmeldung vom Deployment Manager?
Können Sie eine einfache Operation des Typs SELECT für entsperrte Daten innerhalb eines angemessenen Zeitraums ausführen?
Falls die Datenbank nicht ordnungsgemäß funktioniert, ist eine Wiederherstellung der Datenbank (damit diese zumindest Sperren aufheben und einfache Auswahloperationen durchführen kann) unerlässlich für die Systemwiederherstellung.
Falls das Messaging-System nicht ordnungsgemäß funktioniert, ist eine Wiederherstellung des Messaging-Subsystems, sodass dieses zumindest angezeigt und verwaltet werden kann, ebenfalls unerlässlich für die Systemwiederherstellung.
Ausgehend von diesen allgemeinen Basisprozeduren und grundlegenden Aktivitäten, zu denen auch die Überwachung des ordnungsgemäßen Betriebs zählt, sollen nun einige spezifische Situationen genauer untersucht werden. Es werden Muster beschrieben, es werden Spezifikationen angegeben und Sie erhalten Einblicke in die Vorgänge, die unter der Oberfläche ablaufen.
Beachten Sie, dass es sich bei dieser Situationsanalyse um einen Vorgang handelt, der keine anderen Aktivitäten als Lesen einbezieht. Zwar liefert sie unerlässliche Informationen, auf deren Grundlage die geeigneten Wiederherstellungsaktionen ermittelt werden können, aber sie dürfte keine Änderungen am Status des Systems, für das die Überprüfung ausgeführt wird, herbeiführen. Eine Vorhersage und Bereitstellung von verbindlichen Aktionen für alle möglichen Ursachen für einen Systemausfall ist nicht möglich. Prüfen Sie zum Beispiel die folgende Entscheidungsstruktur:
Im Falle einer ungeplanten Betriebsunterbrechung müssen breit gefächerte Kategorien untersucht werden. Diese breit gefächerten Kategorien sind ihrerseits wieder in Unterkategorien unterteilt usw. Die Definition von verbindlichen Aktionen für jeden Knoten und die ihm nachfolgenden Knoten hängen jeweils von den Ergebnissen einer jeden Untersuchung ab. Da diese Art von Beziehung nur unzureichend in Dokumentformat vermittelt werden kann, wird die Verwendung eines Unterstützungstools wie zum Beispiel IBM® Guided Activity Assist empfohlen, das Sie schrittweise und interaktiv durch den Untersuchungs- und Entscheidungsfindungsprozess führt. Während Sie sich von der höchsten Ebene zu jedem untergeordneten Knoten vorwärts bewegen, ist es wichtig, dass jeweils die entsprechende Ebene der Situationsanalyse ausgeführt wird.