如何在自动事务对等恢复和手动事务对等恢复之间进行选择

您的文件系统类型是决定使用何种事务对等恢复的主要因素。不同文件系统具有不同行为,并且在自动对等恢复和手动对等恢复之间进行选择时,文件锁定行为特别重要。

WebSphere® Application Server 高可用性 (HA) 支持使用脉动信号机制来确定服务器是否仍在运行。如果服务器停止响应脉动信号请求,那么会被视为失效。即使服务器仍在运行,系统过载和网络分区(将在本主题的其他位置说明)之类的一些情况也可能会导致服务器停止响应脉动信号。WebSphere Application Server 使用文件锁定技术来避免此类事件导致对事务恢复日志进行并行访问,原因是多个服务器同时访问恢复日志可能导致数据不完整。

但是,并非所有文件系统都会提供必要的文件锁定语义,特别是在服务器失效时释放文件锁定。例如,网络文件系统版本 4 (NFSv4) 提供此释放行为,而网络文件系统版本 3 (NFSv3) 则不会。

您可以通过对 WebSphere Application Server 运行文件系统锁定协议测试来测试共享文件系统是否可以支持对事务日志进行故障转移。要运行测试,请参阅http://www-01.ibm.com/support/docview.wss?uid=swg24010222

在主机失效时,NFSv4 将以主机的名义释放锁定。对等恢复可在不重新启动出现故障的硬件的情况下自动进行。因此,此版本的 NFS 更适合与自动对等恢复配合使用。

NFSv3 将以失效主机的名义挂起文件锁定,直到主机可重新启动。在此上下文中,主机是物理机器,它运行请求锁定的应用程序服务器,当主机(而不是应用程序服务器)重新启动时,将最终触发该锁定被释放。

为说明 NFSv3 上的文件锁定,考虑集群成员失效时的行为:
  1. 服务器 H 在主机 H 上运行,并且对它自己的恢复日志文件挂起独占文件锁定。
  2. 服务器 P 在主机 P 上运行,并且对它自己的恢复日志文件挂起独占文件锁定。
  3. 主机 H 失效,用服务器 H 替换它。文件服务器上的 NFS 锁管理器将挂起以服务器 H 的名义授予自身的锁定。
  4. WebSphere Application Server 将在服务器 P 中触发针对服务器 H 的对等恢复事件。
  5. 服务器 P 尝试获取针对此对等恢复日志的独占文件锁定,但它无法这样做,原因是已经以服务器 H 的名称挂起该锁定。对等恢复进程将阻塞。
  6. 在未指定时,将重新启动主机 H。以其名义挂起的锁定将被释放。
  7. 服务器 P 中的对等恢复进程将取消阻塞并被授予执行对等恢复所需的独占文件锁定。
  8. 对于服务器 H,将在服务器 P 中进行对等恢复。
  9. 将重新启动服务器 H。
  10. 如果仍在服务器 P 中进行对等恢复,那么恢复会停止。
  11. 服务器 P 将释放针对恢复日志的互斥锁定,并将恢复日志的所有权返回给服务器 H。
  12. 服务器 H 获取互斥锁定,并且现在可执行标准事务记录。

因为此行为,您必须在 NFSv3 上禁用文件锁定以使用自动对等恢复。禁用文件锁定会导致对恢复日志的并行访问,这对于首要保护系统避免过载和网络分区是致命的。或者,您可以配置手动对等恢复,通过仅对出现故障的服务器手动触发对等恢复处理来阻止并行访问。

系统过载
在机器负载很大以致响应时间很长并且请求开始超时的情况下,就会发生系统过载。这种过载可能有若干存在原因,包括下列各项:
  • 服务器电源不足,无法处理工作负载。
  • 服务器接收到临时请求流。
  • 物理内存不足。因此,操作系统忙于进行页面调度,无法给予应用程序服务器必需的 CPU 时间。
网络分区
当网络中的通信故障导致生成两个较小的彼此独立并且不能相互联系的网络,就会产生网络分区。
图 1. 与发生明显的服务器故障(系统过载和网络分区)后的脉动信号相比,系统中的脉动信号正常运行与发生明显的服务器故障(系统过载和网络分区)后的脉动信号相比,系统中的脉动信号正常运行

在正常运行期间,网络上的两个服务器交换脉动信号。在系统过载期间,脉动信号操作超时,表示发生服务器故障。在网络分区后,每个服务器都在单独的网络中,并且不能在它们之间传递脉动信号,还会表示服务器出现故障。


指示主题类型的图标 概念主题



时间戳记图标 最近一次更新时间: last_date
http://www14.software.ibm.com/webapp/wsbroker/redirect?version=cord&product=was-nd-mp&topic=cjta_hacons_log
文件名:cjta_hacons_log.html