WebSphere Application Server for z/OS, Version 6.0.x   
             オペレーティング・システム: z/OS

             目次と検索結果のパーソナライズ化

コア・グループ障害検出プロトコル

コア・グループ・メンバーが開始すると、障害検出プロトコルを実行しているタスクも開始します。 このタスクは、メンバーがアクティブである限り実行されます。 障害検出プロトコルは、ディスカバリー・プロトコルが確立するコア・グループ・ネットワーク接続をモニターします。 障害検出プロトコルは、障害のあるネットワーク接続を検出すると、 View Synchrony Protocol とディスカバリー・プロトコルに障害を報告します。 View Synchrony Protocol は、失敗したメンバーを除外するようにビューを調整します。 ディスカバリー・プロトコルは、失敗したメンバーとのネットワーク接続を再確立しようとします。

障害検出プロトコルは、以下のような 2 つの異なるメカニズムを使用して、失敗したメンバーを検出しま す。

ソケットのクローズ

コア・グループ・メンバーが管理コマンドに応答して正常に停止すると、 そのメンバーのコア・グループ・トランスポートも停止し、トランスポートに関連したソケットがクローズされます。 コア・グループ・メンバーが異常終了した場合は、通常、 基盤となるオペレーティング・システムがプロセスがオープンしたソケットをクローズし、 コア・グループ・トランスポートに関連したソケットをクローズします。

いずれのタイプの終了の場合も、 終了したメンバーへの接続がオープンされているコア・グループ・メンバーには、接続が使用できなくなったことが通知されます。 ソケットがクローズされたという通知を受けたコア・グループ・メンバーは、終了したメンバーを失敗したメンバ ーと見なします。

ソケット・クローズ・メカニズムによって障害のあるメンバーが検出されると、 以下のメッセージが 1 つ以上、残りのメンバーの SystemOut.log ファイルに記録されます。
DCSV1113W: DCS Stack DefaultCoreGroup at Member anzioCell01¥anzioCellManager01¥dmgr:
Suspected another member because the outgoing connection to the other member was closed. 
Suspected member is anzioCell01¥nettuno¥ServerB.
DCS logical channel is View|Ptp.

DCSV1111W: DCS Stack DefaultCoreGroup at Member anzioCell01¥anzioCellManager01¥dmgr:
Suspected another member because the outgoing connection from the other member was closed. 
Suspected members is anzioCell01¥nettuno¥ServerB.
DCS logical channel is Connected|Ptp.

クローズされたソケット・メカニズムは、 失敗したメンバーを発見する一般的な方法です。 基盤となるオペレーティング・システムの TCP 設定 (FIN_WAIT など) は、 ソケットのクローズ・イベントの受信速度に影響を与えます。

アクティブなハートビート

アクティブなハートビート・メカニズムは、TCP のキープアライブ機能に類似しています。 定期的にスケジュールされた間隔で、 各コア・グループ・メンバーは、オープンなコア・グループ接続ごとに ping パケットを送信します。 パケットが確認されると、すべてが正常であると想定されます。 ping が一定回数連続して行われた後で所定のメンバーからの応答が受信されない場合は、 メンバーが失敗したとマークされます。 メンバーが失敗したとマークされた場合は、次のメッセージがログに記録されます。
DCSV1112W: DCS Stack DefaultCoreGroup at Member anzioCell01¥anzioCellManager01¥dmgr:
Suspected member anzioCell01¥nettuno¥ServerB because of heartbeat timeout.
Configured Timeout is 180000 milliseconds.
DCS logical channel is Connected|Ptp.
アクティブなハートビートは、 ネットワークが停止したために到達不能なコア・グループ・メンバーを検出するのに最も便利です。 アクティブなハートビートは、CPU をある程度消費します。 消費される CPU 使用量は、コア・グループ内のアクティブ・メンバーの数に比例します。 アクティブなハートビートのデフォルト構成は、CPU の使用残量と失敗したメンバーのタイムリーな検出との バランスです。 以下のコア・グループのカスタム・プロパティーを使用して、 アクティブなハートビートの設定を変更できます。
  • IBM_CS_FD_PERIOD_SECS。 連続するハートビート間の時間間隔 (秒単位) を指定します。 このプロパティーのデフォルト値は 30 秒です。
  • IBM_CS_FD_CONSECUTIVE_MISSED。 コア・グループ・メンバーが失敗したと見なす前に見逃す必要がある、連続したハートビートの数を指定 します。 このプロパティーのデフォルト値は 6 です。



関連概念
コア・グループのディスカバリー・プロトコル
コア・グループ (高可用性ドメイン)
関連タスク
コア・グループに対する障害検出プロトコルの構成
概念トピック    

ご利用条件 | フィードバック

最終更新: Jan 21, 2008 10:52:11 PM EST
http://publib.boulder.ibm.com/infocenter/wasinfo/v6r0/index.jsp?topic=/com.ibm.websphere.zseries.doc/info/zseries/ae/crun_ha_faildetect.html