1194 オフライン・ノードの自動リカバリーが失敗しました。
説明
クラスターにオフライン・ノードがあり、候補ノードの 1 つがオフライン・ノードの特性と一致することをクラスターが判別しました。クラスターは、ノードをクラスターに追加して戻そうとしましたが、失敗しました。クラスターは、自動的にノードをクラスターに追加する試みを停止しました。
ノードに不完全な状態データがある場合、始動後、オフラインのままです。この状態が生じるのは、ノードの電源が失われたか、ハードウェア障害のときに、一部の状態データをディスクに書き込むことができなかった場合です。ノードはこの状態になると、ノード・エラー 578 を報告します。
一致する候補ノードをクラスターに自動的に追加する試行が 3 回行われたにもかかわらず、ノードが 24 時間でオンラインに戻らなかった場合、クラスターは、ノードを自動的に追加する試行を停止し、エラー・コード 1194「オフライン・ノードの自動リカバリーが失敗しました」をログに記録します。
このエラー・イベントがログに記録されるときに考えられる 2 つのシナリオは、次のとおりです。
- ノードは、その状態データの一部を保存せずに失敗しました。おそらく修復後にノードは再始動しました。ノード・エラー 578 を表示し、クラスターに加わるための候補ノードです。クラスターはノードをクラスターに追加しようとしますが、成功しません。15 分後、クラスターは、ノードをクラスターに追加する 2 回目の試行を行いますが、再び成功しません。さらに 15 分後、クラスターは、ノードをクラスターに追加する 3 回目の試行を行いますが、再び成功しません。さらに 15 分後、クラスターはエラー・コード 1194 をログに記録します。ノードをクラスターに追加する試みの間、ノードはオンラインになりませんでした。
- ノードは、その状態データの一部を保存せずに失敗しました。おそらく修復後にノードは再始動しました。ノード・エラー 578 を表示し、クラスターに加わるための候補ノードです。クラスターはノードをクラスターに追加しようとし、成功し、ノードはオンラインになります。24 時間以内にノードは、その状態データを保存せずに再び障害を起こします。ノードは再始動し、ノード・エラー 578 を表示し、クラスターに加わるための候補ノードです。クラスターは再びノードをクラスターに追加しようとし、成功し、ノードはオンラインになります。しかし、24 時間以内にノードは再び障害を起こします。クラスターはノードをクラスターに追加する 3 回目の試行を行い、成功し、ノードはオンラインになります。しかし、24 時間以内にノードは再び障害を起こします。さらに 15 分後、クラスターはエラー・コード 1194 をログに記録します。
これらのシナリオの組み合わせも考えられます。
注: ノードが手動でクラスターから除去される場合、自動リカバリー試行回数はゼロにリセットされます。
ユーザーの処置
- 24 時間を超えてノードがクラスター内で連続してオンラインであった場合、エラーに修正済みのマークを付け、修復検査 MAP に進みます。
- イベント・ログ内でこのノード名のイベントを見つけることによって、このノードのイベントの履歴を判別します。ノード ID が変わることに注意してください。したがって、WWNN とノード名で突き合わせてください。また、サービス・レコードも確認してください。具体的には、次の 3 つのイベントのいずれかを示す項目に注目します。1) ノードがクラスターから欠落している (クラスター・エラー 1195 イベント 009052)、2) オフライン・ノードを自動的にリカバリーする試みが開始している (イベント 980352)、3) ノードがクラスターに追加された (イベント 980349)。
- リカバリー・プロセスの開始以降にノードがクラスターに追加されなかった場合、おそらくハードウェア障害があります。ノードの内部ディスクが、そのソフトウェア・レベルをクラスターのソフトウェア・レベルと一致するように変更できないような障害が起きている可能性があります。問題の根本原因をまだ判別できない場合、手動でノードをクラスターから除去し、ノードをクラスターに追加して戻すことを試みることができます。クラスターがノードを追加しようとしている間、クラスター内のノードの状況を連続してモニターしてください。注: ノード・タイプがクラスターのソフトウェア・バージョンによってサポートされない場合、ノードは候補ノードとして表示されません。したがって、互換性のないハードウェアが、このエラーの潜在的な根本原因ではありません。
- ノードがクラスターに追加されたにもかかわらず、24 時間オンラインにならないうちに再び障害が起きた場合、その障害の根本原因を調査します。イベント・ログ内のイベントがノード障害の理由を示していない場合、ダンプを収集し、IBM 技術サポートに連絡して支援を依頼してください。
- ノードの問題を修正した場合、クラスター・コンソールまたはコマンド・ライン・インターフェースのいずれかを使用して、手動でノードをクラスターから除去し、ノードをクラスターに追加する必要があります。
- エラーに修正済みのマークを付け、検査 MAP に進みます。
考えられる原因 - FRU またはその他:
なし。ただし、調査によりハードウェア障害が示される可能性があります。