Fehlerbehebung ist ein systematischer Ansatz zum Lösen von Problemen. Das Ziel ist die Ermittlung, warum etwas nicht wie erwartet funktioniert und wie das Problem gelöst werden kann.
Der erste Schritt im Fehlerbehebungsprozess ist eine vollständige Beschreibung des Problems. Ohne eine Problembeschreibung haben weder Sie noch IBM einen Ausgangspunkt für das Ermitteln der Problemursache. Stellen Sie sich die folgenden grundlegenden Fragen:
Die Antworten auf diese Fragen führen in der Regel zu einer guten Beschreibung des Problems. Dies ist die beste Methode, die Problemlösung in Angriff zu nehmen.
Die erste zu stellende Frage am Anfang einer Problembeschreibung lautet: "Was ist das Problem?" Diese allgemein gehaltene Frage kann in mehrere präzisere Fragen aufgeteilt werden, die ein anschaulicheres Bild des Problems liefern. Sie können folgende Fragen stellen:
Es ist nicht immer einfach, die Ursache eines Problems zu ermitteln, aber dies ist einer der wichtigsten Schritte beim Lösen des Problems. Zwischen der Komponente, die das Problem meldet, und der fehlgeschlagenen Komponente können viele Technologieschichten liegen. Netzwerke, Datenträger und Treiber sind nur einige der Komponenten, die beim Untersuchen von Problemen in Betracht gezogen werden müssen.
Die folgenden Fragen sollen Ihnen helfen, die Problemschicht einzugrenzen.
Selbst wenn eine Schicht das Problem meldet, bedeutet dies nicht unbedingt, dass das Problem von dieser Schicht verursacht wird. Wenn Sie feststellen wollen, wodurch ein Problem verursacht wird, muss auch die Umgebung geklärt werden, in der das Problem auftritt. Nehmen Sie sich genügend Zeit, die Problemumgebung vollständig zu beschreiben. Schließen Sie dabei das Betriebssystem, seine Version, die gesamte zugehörige Software mit Versionsangabe und Hardwareinformationen ein. Stellen Sie sicher, dass Sie in einer Umgebung arbeiten, die eine unterstützte Konfiguration ist. Viele Probleme können auf inkompatible Softwareversionen zurückgeführt werden, die nicht für gemeinsame Ausführung konzipiert sind oder nicht vollständig zusammen getestet wurden.
Ermitteln Sie den detaillierten zeitlichen Ablauf der Ereignisse, die zu einem Fehler geführt haben, vor allem für jene Fälle, die nur einmal aufgetreten sind. Sie arbeiten hierfür am einfachsten rückwärts: Starten Sie an dem Zeitpunkt, zu dem ein Fehler gemeldet wurde (so genau wie möglich, d. h. bis auf die Millisekunde), und arbeiten Sie sich rückwärts durch die verfügbaren Protokolle und Informationen. In der Regel brauchen Sie nur das erste suspekte Ereignis in einem Protokoll der Diagnoseprogramme zu finden. Dies ist jedoch nicht immer einfach und bedarf einiger Übung. Es ist schwer zu ermitteln, wann die Suche gestoppt werden soll, wenn mehrere Technologieschichten beteiligt sind und jede Schicht über eigene Diagnoseinformationen verfügt.
Versuchen Sie, die folgenden Fragen zu beantworten, um einen ausführlichen Zeitplan der Ereignisse zu entwickeln:
Die Antworten auf derartige Fragen helfen Ihnen bei der Bereitstellung eines Kontextes, mit dessen Hilfe das Problem untersucht werden kann.
Es ist wichtig zu wissen, welche anderen Systeme und Anwendungen ausgeführt werden, wenn das Problem auftritt. Die folgenden und andere Fragen zu Ihrer Umgebung können Ihnen beim Feststellen der eigentlichen Fehlerursache helfen:
Antworten auf diese Arten von Fragen können Ihnen beim Überprüfen der Umgebung, in der das Problem auftritt, und beim Korrelieren von Abhängigkeiten helfen. Beachten Sie, dass ein Auftreten mehrerer Probleme zur ungefähr gleichen Zeit nicht unbedingt auf eine Zusammengehörigkeit der Probleme hinweist.
Aus Sicht der Fehlerbehebung ist ein Problem 'ideal', wenn es reproduziert werden kann. In der Regel stehen ihnen bei der Überprüfung reproduzierbarer Probleme umfangreichere Gruppen von Tools oder Prozeduren zur Verfügung. Daher sind reproduzierbare Probleme häufig einfacher zu testen und beheben. Reproduzierbare Probleme haben jedoch einen Nachteil: Wenn das Problem die Geschäftsabläufe entscheidend beeinflusst, wollen Sie ein erneutes Auftreten vermeiden. Reproduzieren Sie das Problem in einer Test- oder Entwicklungsumgebung, sofern möglich. Diese Umgebung bietet Ihnen gewöhnlich größere Flexibilität und Steuerung während der Untersuchung.