事务故障诊断技巧

使用这些技巧帮助您对 WebSphere® Application Server 事务服务进行故障诊断。

对于特定于 WebSphere Application Server 节点的消息传递问题,请参阅信息中心中的其他主题,例如关于消息传递故障诊断技巧的主题和 WebSphere Application Server 支持 Web 页面。

同代恢复未能获得锁定

如果事务的同级恢复获取保证恢复过程的文件锁定时失败,那么可能出现以下消息:
[10/26/04 8:41:38:887 CDT] 00000029 CoordinationL A   CWWTR0100_GENERIC_ERROR
[10/26/04 8:41:39:100 CDT] 00000029 RecoveryHandl A   CWWTR0100E: An attempt to 
acquire a file lock needed to perform recovery processing failed. Either the 
target server is active or the recovery log configuration is incorrect
....
[10/26/04 8:42:34:921 CDT] 00000027 HAGroupImpl   I   CWRHA0130I: The local 
member of group GN_PS=fwsitkaCell01\fwwsaix1Node01\GriffinServer3,
IBM_hc=GriffinCluster,type =WAS_TRANSACTIONS has indicated that is it not 
alive. The JVM will be terminated.
[10/26/04 8:42:34:927 CDT] 00000027 SystemOut     O Panic:component requested 
panic from isAlive
要对未能获得文件锁定的原因进行故障诊断,请检查下列因素:
  • 如果您已经在服务器集群上启用了事务日志恢复的故障转移并使用事务日志的 NAS 设备,请检查您机器上的 DFS 级别是否处于正确的 NAS DFS 级别。如果这两个级别不正确,那么无法访问事务日志。
  • 如果正在作为非 root 用户运行,那么检查同代恢复所涉及到的所有机器上的非 root 用户和组的标识数是否相匹配。
  • 如果已经为事务定义了策略,请查看策略以确保您给予正确的服务器的控制权(可能您必须添加或重新排序首选的服务器列表)。

客户机请求和 Web Service 事务协议消息不会路由到相应的服务器

当客户机不是目标服务所在管理单元的一部分并且您需要事务亲缘关系或事务高可用性时,您可以使用 WebSphere Application Server 代理服务器拓扑将客户机请求和 Web Service 事务协议消息路由到相应的服务器。在此拓扑中,客户机与 WebSphere Application Server 代理服务器进行通信,该代理服务器动态地将客户机请求和 Web Service 事务协议消息路由到 WebSphere 应用程序服务器集群中的相应服务器。为了使此方案工作,必须在目标服务所在的管理单元中配置代理服务器。
避免故障 避免故障: WebSphere Application Server 对于此方案未提供随需应变路由器 (ODR) 支持。只有 WebSphere Application Server 代理服务器可以充当 Web Service 事务端点的代理。gotcha

在服务器失败之后所记录的 XAER_NOTA 异常

如果应用程序服务器失败,且立即将最后的事务记录强制到磁盘,那么您可能会或可能不会恢复事务。

WebSphere Application Server 不将最后记录强制到日志,因此这取决于操作系统或网络文件系统来决定何时写到磁盘。如果干净地关闭服务器,那么将强制写入记录。事务服务用来处理从不将结束记录写入磁盘的情况 - 当从数据库中返回 XAER_NOTA 时。
[date time] 00000057 WSRdbXaResour E   CWWRA0302E:  XAException occurred.  
Error code is: XAER_NOTA (-4).  Exception is: XAER_NOTA

如果某个事务的事务日志中没有结束记录,那么事务服务将尝试针对数据库进行检查。如果该事务已完成,那么数据库将指出不再需要完成任何操作 (XAER_NOTA)。这是正常行为,并不是错误。

消息记录中没有干净关闭消息

当应用程序服务器关闭时,回滚所有活动的事务。如果所有事务都成功完成,那么会记录消息 CWWTR0105I,指示干净关闭事务服务,而下一次服务器重新启动不需要任何恢复活动。如果应用程序服务器关闭但未记录消息 CWWTR0105I,那么此消息并不表示存在问题,但意味着服务器重新启动时需要恢复活动。

在卸载产品之前,应干净关闭应用程序服务器,以避免数据完整性问题。

[z/OS]确保不需要从 RRS 或 XA 资源透视图恢复
在 z/OS 操作系统上,从不记录干净关闭消息 CWWTR0105I。要确保不需要从 RRS 或 XA 资源透视图恢复,您可以在对其进行配置的系统中以恢复方式重新启动应用程序服务器。在恢复方式下,如果有任何未完成的恢复单元 (UR),那么应用程序服务器将先完成 UR,再关闭。如果没有未完成的 UR,那么应用程序服务器将先启动,再正常关闭。因此,要确保所有恢复都已发生,请以恢复方式重新启动服务器,然后等待正常关闭。
[z/OS]

高可用性环境中大型跨集群或跨节点全局事务故障转移后的服务器挂起

如果发生故障转移(例如 LPAR 失败),那么部分继续存在的应用程序服务器可能会变得无响应。

要解决此问题,请取消并重新启动应用程序服务器。如有必要,请强制重新启动应用程序服务器。


指示主题类型的图标 参考主题



时间戳记图标 最近一次更新时间: last_date
http://www14.software.ibm.com/webapp/wsbroker/redirect?version=cord&product=was-nd-mp&topic=rjta_prob0
文件名:rjta_prob0.html