[AIX Solaris HP-UX Linux Windows][z/OS]

Intelligent Management:对运行状况管理进行故障诊断

当运行状况管理不工作或未按照预期方式工作时,可以查找是否存在以下问题。

查找正确的日志

运行状况控制器是由高可用性 (HA) 管理器管理的分布式资源。它存在于所有 Node Agent 和 Deployment Manager 进程中,并在其中的一个进程中为活动状态。如果进程失败,那么控制器会在另一个 Node Agent 或 Deployment Manager 进程上激活。

要确定运行状况控制器的运行位置,请在管理控制台中单击运行时操作 > 组件稳定性 > 核心组件。将显示运行状况控制器的位置和稳定性状态。

使用预定义内存泄漏运行状况策略启用性能顾问程序

预定义的内存泄漏运行状况策略使用性能顾问程序功能,所以当此策略已指定成员时会启用性能顾问程序。要禁用性能顾问程序,请移除此运行状况策略或缩小运行状况策略的成员资格的范围。要保留该运行状况策略以供将来使用,请保留内存泄漏策略,但要移除所有成员。要更改成员,请单击运作策略 > 运行状况策略 > memory_leak_policy。通过添加和移除特定成员可编辑运行状况策略成员资格。

运行状况控制器设置

以下列表包含了由于运行状况控制器设置的原因而遇到的一些问题:
禁用运行状况控制器
要在管理控制台中验证该设置,请单击运作策略 > 自主管理器 > 运行状况控制器并选择配置运行时选项卡。缺省情况下启用运行状况控制器。
重新启动目前处于禁止状态
要在管理控制台中验证禁止的重新启动时间,请单击运作策略 > 自主管理器 > 运行状况控制器并选择禁止重新启动字段。缺省情况下,未禁止任何时间值。
上次重新启动与此次重新启动之间的时间间隔太短
要在管理控制台中检查最小重新启动时间间隔,请单击运作策略 > 自主管理器 > 运行状况控制器,并修改最小重新启动时间间隔字段。缺省情况下未定义任何最小时间间隔。
控制周期太长
要在管理控制台中检查控制周期长度,请单击运作策略 > 自主管理器 > 运行状况控制器,并调整该值(如果需要)。运行状况控制器会定期检查策略违例情况。如果其控制周期长度太长,那么可能不能足够快地重新启动服务器。
已连续 X 次重新启动服务器,且继续违反运行状况条件
在这里,X 指示运行状况控制器的“最大连续重新启动次数”参数。运行状况控制器推断重新启动未解决此问题,并因此禁用了该服务器的重新启动。日志中会显示以下消息:
WXDH0011W: Server servername  exceeded maximum verification failures: disabling restarts.
运行状况控制器将继续监视服务器,当违反运行状况策略时,将在日志中显示消息:
WXDH0012W: Server servername with restarts disabled failed health check.
可以执行以下任意操作来启用服务器的重新启动:
  • 禁用然后启用运行状况控制器。
  • 调整最大连续重新启动次数控制器设置。
  • 从提示符下运行以下命令:
    wsadmin -profile HmmControllerProcs.jacl enableServer servername
    此脚本可在 Node Agent 或 Deployment Manager 节点上的 <app_server_root>\bin 目录中找到。此脚本需要一个运行的 Deployment Manager。

运行状况策略设置

由于运行状况策略设置的原因会遇到以下问题:
服务器不是运行状况策略的一部分
要在管理控制台中验证运行状况策略成员资格是否适用于您的服务器,请单击运作策略 > 运行状况策略
包含服务器的策略的反应方式是受控方式
要检查管理控制台,请单击系统管理 > 任务管理 > 运行时任务。在受控方式下查找策略的重新启动操作的核准请求。将反应方式设置为自动时,会自动重新启动服务器。对于受控情况,会将以下消息写入至日志:
WXDH0024I: Server server name has violated the health policy health condition, 
reaction mode is supervised.
服务器是静态集群的成员,并且是唯一正在运行的集群成员
运行状况策略未使集群的所有成员同时关闭。如果集群有一个集群成员,或者一个集群成员正在运行,那么不会重新启动此集群。
服务器是动态集群的成员。运行实例数未超过最小值,并且布置控制器已禁用
要检查动态集群的必需的最小实例数,请在管理控制台中单击服务器 > 集群 > 动态集群。在这种情况下,借助“最小实例数”参数,运行状况管理将动态集群作为静态集群对待。
运行状况控制器尚未接收到该策略
运行状况控制器未在创建运行状况策略所在的 Deployment Manager 上运行。如果在启动运行状况控制器后重新启动了 Deployment Manager,那么运行状况控制器可能未包含新策略。
若要解决此问题,请执行以下步骤:
  1. 禁用运行状况控制器。在管理控制台中,单击运作策略 > 自主管理器 > 运行状况控制器
  2. 使配置库与后端节点同步。在管理控制台中,单击系统管理 > 节点。选择要同步的节点,然后单击同步
  3. 重新启动运行状况控制器。在管理控制台中,单击运作策略 > 自主管理器 > 运行状况控制器
  4. 使配置库与后端节点同步。在管理控制台中,单击系统管理 > 节点。选择要同步的节点,然后单击同步

应用程序布置控制器交互

以下列表包含由运行状况管理和应用程序布置控制器交互所触发的问题:

服务器是动态集群的成员,但无法与布置控制器取得联系
对于动态集群成员,运行状况监视功能将对应用程序布置控制器进行检查以确定是否可以重新启动服务器。如果已启用应用程序布置控制器,但无法联系到,那么将在日志中显示以下消息:
WXDH1018E: Could not contact the placement controller
验证布置控制器是否在运行。要确定运行状况控制器的运行位置,请在管理控制台中单击运行时操作 > 组件稳定性 > 核心组件。将显示运行状况控制器的位置和稳定性状态。运行状况控制器会将消息记录到由当前位置指示的特定 Node Agent 或 Deployment Manager。
服务器已停止,但未启动。
在动态集群中,可以通过下列其中一种形式来重新启动:
  • 原地重新启动(停止服务器,然后启动服务器)。
    注: 始终在动态集群处于手动方式时发生。
  • 在另一个节点上启动服务器实例,然后停止失败的实例。
  • 仅停止失败的服务器,此时假定余下的应用程序实例可以满足需求。

传感器问题

以下列表包含与运行状况管理和节点组成员资格设置相关的问题:

未从服务器接收到传感器数据。
如果运行状况管理未从传感器接收到策略所必需的数据,那么运行状况管理不能检测到策略违例。如果在控制周期内未检测到传感器数据,那么运行状况管理将输出以下日志消息:
WXDH3001E: No sensor data received during control cycle from server server_name for 
health class healthpolicy.
对于响应时间条件,运行状况管理从随需应变路由器 (ODR) 接收数据。在通过 ODR 发送请求前,不会为这些条件生成任何数据。

任务管理状态

有时重新启动操作任务状态会以失败未知状态结束。当服务器不在缺省情况下分配的时间段内停止或当任务超时时,会发生此场景。使用以下单元级别属性来为您的环境调整超时:HMM.StopServerTimeout。值以毫秒表示,缺省值为 10000。此属性使运行状况管理能够延长从随需应变配置接收到的服务器停止通知的等待时间。

要为您的环境增加超时,请转至运作策略 > 自主管理器 > 运行状况控制器 > 重新启动超时。缺省值为 5 分钟。重新启动任务将在所指定数量的两倍时间之后启动,从而允许服务器停止并启动。


指示主题类型的图标 参考主题



时间戳记图标 最近一次更新时间: last_date
http://www14.software.ibm.com/webapp/wsbroker/redirect?version=cord&product=was-nd-mp&topic=rwve_odhealthfail
文件名:rwve_odhealthfail.html