故障诊断过程的第一步是完整描述问题。问题描述有助于您和 IBM 技术支持代表了解从何处着手查找问题的原因。 该步骤包含一些对您自己提出的基本问题:
这些问题的答案通常可很好地描述问题,从而引导您获得问题解决方案。
当开始描述问题时,最明显的问题是“问题是什么?”此提问似乎很直接了当;但是,您可以将其分解为若干个更有针对性的询问,从而更好地描述该问题。这些问题可以包括:
确定问题的起源位置并不总是那么容易,但却是问题解决过程中最重要的步骤之一。在报告组件和故障组件之间可能存在许多技术层。当您在调查问题时,网络、数据网格和服务器只是应考虑的很少一部分组件。
以下问题可帮助您注意问题出现的位置,以分离出问题所在的层:
即使一个层报告了问题,该问题也不一定源于该层。 在确定发生问题的位置的过程中,应了解问题所在的环境。请用一些时间来完整描述问题环境,其中包括操作系统和版本、所有对应软件和版本以及硬件信息。请确认正在配置受支持的环境中运行;许多问题都可以回溯到不兼容的软件级别,这些级别不应一起运行或是没有一起进行过全面测试。
建立引起故障的事件的详细时间线,对于那些只发生一次的问题而言尤其应该如此。可通过反向工作来最方便地建立时间线:在报告错误时(尽可能精确,甚至直到毫秒)启动并通过可用的日志和信息反向工作。通常,只需要查看在诊断日志中找到的第一个可疑事件。
要绘制详细的事件时间线,请回答这些疑问:
对这些类型的问题作出的回答可以为您调查问题时提供参考框架。
故障诊断时存在一个重要部分,即应知道问题发生时哪些系统和应用程序正在运行。有关环境的这些疑问可帮助您识别问题的根本原因:
回答这些类型的问题可帮助您说明发生问题的环境并将所有相关性联系起来。 请记住,即使多个问题在几乎同一时间发生,并不一定表示这些问题是相互关联的。
从故障诊断角度来讲,理想的问题是可再现的问题。通常,当问题可重现时,您在处理问题时就具有更多的工具或过程可用于帮助调查。因此,可以重现的问题通常容易调试和解决。
但是,可再现的问题会具有以下缺点:当问题对业务有重大影响时,您不希望它重现。如果可能,可在测试或开发环境中重现问题,这通常会在调查中为您提供更多的灵活性及控制权。