故障诊断是一种解决问题的系统方法。故障诊断的目的是要确定某些事情未如期运行的原因和解决问题的方法。您可以使用左侧导航窗格中“搜索知识库”下的 Web 搜索表单来搜索基于 Web 的实时支持资源。
故障诊断过程的第一步是详细描述问题。问题描述有助于您和 IBM 支持代表了解从何处着手查找问题的原因。此步骤包括对自己询问以下几个基本问题:
这些问题的答案通常会为您带来很好的问题描述,这也能够帮助您解决问题。
在开始描述问题时,最明显的疑问就是“发生了什么问题?”。这个问题看上去可能有点直白,但是您可以将其分割成若干个集中的问题,从而创建问题的更多描述性图片。这些问题可以包括:
确定问题最初发生的位置往往没有那么容易,但是它却是解决问题的最关键一个步骤。报告问题的组件和发生失败的组件之间可能存在很多技术层。网络、磁盘和驱动程序都只是调查问题时需要考虑的一小部分组件。
下列问题会帮助您集中在问题发生的位置,从而分离问题层:
即使一个层报告了问题,该问题也不一定源于该层。识别问题最初发生的位置需要了解该问题存在的环境。请花费一些时间来详细描述问题环境,包括操作系统和版本、所有相应软件和版本以及硬件信息。请确认您的运行环境是否是受支持的配置;许多问题都可以追溯到软件的不兼容级别,这些软件不能同时运行或尚未充分进行同时运行测试。
形成导致失败的事件的详细时间线,特别是那些仅出现一次的案例。通过向后恢复工作最容易形成时间线:从报告错误的时间开始(尽可能精确到毫秒),然后通过可用的日志和信息向后恢复工作。通常,您只需要查看到您在诊断日志中找到的第一个可疑事件即可。
要形成事件的详细时间线,请回答以下问题:
对这些类型的问题作出的回答可以为您调查问题时提供参考框架。
了解问题发生时哪些系统和应用程序正在运行是故障诊断的关键部分。下列有关环境的问题可以帮助您识别问题发生的根本原因:
回答这些类型的问题可以帮助您说明问题发生时的环境并关联所有依赖性。请记住,由于可能同时发生多个问题,但是这些问题并不一定相关。
从故障诊断的观点来看,可以重现的问题就是理想的问题。通常,在问题可以重现时,您可以使用更多的工具或处理过程来帮助您进行调查。因此,可以重现的问题通常也易于调试和解决。但是,可以重现的问题可能具有以下缺点:如果此问题对业务具有严重影响,那么您可能不想重现此问题。如果可以,请在测试环境或开发环境中重现此问题,这样做通常会在调查过程中为您提供更大的灵活性和更好的控制。