gmlinktolerance 機能は、非サイクル・モードのグローバル・ミラー関係の応答時間をモニターします。gmlinktolerance 機能は、chsystem CLI コマンドまたは管理 GUI を使用して設定できます。gmlinktolerance 機能は、1 次 Storwize® V3700 クラスター化システムが、2 次システムからの低速応答時間を許容する秒数を表します。
低速応答が指定された許容度を超えると、1920 エラーがログに記録されます。
また、1 次サイトのアプリケーション・ホストを保護するために、1 つ以上のグローバル・ミラー関係が自動的に停止されます。
通常操作の間は、グローバル・ミラー機能が非同期複製を使用しているため、アプリケーション・ホストへの応答時間に生じる影響は最小です。
しかし、
グローバル・ミラー操作で、2 次システムからの応答時間の低速化が長時間続くと、入出力操作は 1 次システムのキューに入れられます。この結果、アプリケーション・ホストへの応答時間が長くなります。
この状態で、gmlinktolerance 機能はグローバル・ミラー関係を停止し、アプリケーション・ホストの応答時間は正常に戻ります。
1920 エラーが発生した後は、エラーの原因を修正し、グローバル・ミラー関係を再開するまでは、グローバル・ミラーの補助
ボリュームは整合同期化済み (consistent_synchronized) 状態ではなくなります。
このため、必ずシステムをモニターして、このエラーの発生を追跡してください。
gmlinktolerance 機能は、gmlinktolerance 値を 0 (ゼロ) に設定して使用不可にできます。
ただし、gmlinktolerance 機能を使用不可にすると、アプリケーションに対する応答時間の低速化を防ぐことはできません。
以下の環境では、gmlinktolerance 機能を使用不可にするのが適切な場合があります。
- SAN コンポーネントからのパフォーマンスの低下が予想される SAN 保守ウィンドウの間、アプリケーション・ホストに対するグローバル・ミラー・ボリュームからの応答時間が長くなっても許容される場合。
- アプリケーション・ホストが応答時間の延長を許容する期間。この期間中に、gmlinktolerance 機能がグローバル・ミラー関係を停止する可能性があります。
例えば、バックエンド・ストレージに負荷をかけるように構成された入出力生成プログラムの使用をテストしている場合は、gmlinktolerance 機能が長い待ち時間を検出して、グローバル・ミラー関係を停止することもあります。テスト・ホストへの応答時間が長くなっても構わない場合には、gmlinktolerance を使用不可にすれば、グローバル・ミラー関係の停止を防ぐことができます。
1920 エラーの診断および修正
1920 エラーは、1 つ以上の SAN コンポーネントが、アプリケーション・ホストが必要とするパフォーマンスを提供できないことを示しています。これは、一時的な場合もあれば (例えば、保守アクティビティーの結果)、永続的な場合もあります (例えば、ハードウェア障害または予期しないホスト入出力のワークロードの結果)。
1920 エラーの前に通知イベント 985004 最大複製遅延を超過しました があった場合、システムは最大複製遅延タイムアウト値以内にリモート・システム内のディスクへのパスを検出しなかった可能性があります。機能低下したパスを検出および修復するためにリモート・システムを調査します。また、lssystem コマンドを使用して、maxreplicationdelay 値を表示することもできます。値が低すぎる場合は、chsystem コマンドを使用して、新しい maxreplicationdelay 値を指定してください。
他の 1920 エラーが発生する場合は、SAN パフォーマンス分析ツール (
IBM® Spectrum Control など) をセットアップし、そのツールが正しく構成され、問題発生時に統計をモニターすることを確認してください。SAN パフォーマンス分析ツールを、使用可能な最小の統計収集間隔に設定します。
IBM Spectrum Control システム の場合、最小間隔は 5 分です。発生した 1920 エラーが複数の場合は、一番古いエラーの原因を最初に診断します。以下の質問は、エラーの原因の判別に役立ちます。
- エラーのとき、保守を行っていましたか。
これには、ストレージ・システムの物理ディスクの取り替え、ストレージ・システムのファームウェアの更新、またはいずれかの Storwize V3700 システムでのコードの実施が含まれることがあります。
グローバル・ミラー 関係を非サイクル・モードで再開する前に、保守手順が完了するまで待つ必要があります。こうしないと、システムがまだ適正なパフォーマンスを達成できる安定状態に戻っていないため、別の 1920 エラーが出されます。
- ソース・システムかターゲット・システムのどちらかに、未修正エラーがありましたか。
ある場合、それらのエラーを分析して、1920 エラーの原因であるかどうか調べてください。特に、それらのエラーが、関係で使用されているボリュームまたは MDisk に関連しているかどうか、またはそれらのエラーによってターゲット・システムのパフォーマンスが低下したかどうかを判断してください。グローバル・ミラー関係を再開する前に、これらのエラーが修正されていることを確認してください。
- 長距離リンクが過負荷ですか?
リンクが、短期間ピークのグローバル・ミラー・ワークロードに耐えられない場合は、1920 エラーが発生する可能性があります。
以下の確認を行って、長距離リンクが過負荷かどうかを判別します。
- グローバル・ミラー関係の停止までの、グローバル・ミラー補助ボリュームの書き込みスループットの合計を調べます。このボリュームがリンク帯域幅にほぼ等しい場合は、リンクが過負荷である可能性があります。これは、アプリケーション・ホストの入出力操作、またはホスト入出力およびバックグラウンド (同期) コピー・アクティビティーの組み合わせが原因であることがあります。
- グローバル・ミラー関係の停止までの、グローバル・ミラー・ソース・ボリュームの書き込みスループットの合計を調べます。この値は、アプリケーション・ホストによって行われている入出力操作を表しています。これらの操作がリンクの帯域幅に接近してきている場合は、
アプリケーションで実行しようとしている入出力操作を減らすか、グローバル・ミラーを使用して、コピーするボリュームを少なくしてください。補助ディスクに対する入出力操作がソース・ボリュームより著しく多い場合は、大量のバックグラウンド・コピーが行われています。
グローバル・ミラー協力関係のバックグラウンド・コピー率パラメーターを減らし、
合計アプリケーション入出力帯域幅およびバックグラウンド・コピー率をリンクの能力範囲内にします。
- グローバル・ミラー関係の停止後の、合計グローバル・ミラー・ソース・ボリュームの書き込みスループットを調べます。関係が停止すると書き込みスループットが 30% 以上増加する場合、アプリケーション・ホストは、リンクの能力を超える入出力操作を行おうとしています。
グローバル・ミラー関係がアクティブの際は、過負荷リンクによって、アプリケーション・ホストへの応答時間が増えることになり、それによって、達成できるスループットは減らされます。
グローバル・ミラー関係の停止後、アプリケーション・ホストに対する応答時間が減少します。
この場合は、リンク帯域幅を増加させるか、アプリケーション・ホストの入出力速度を減少させるか、あるいはグローバル・ミラーを使用してコピーされるボリュームを少なくする必要があります。
- 2 次システムのストレージ・システムは過負荷ですか。
1 つ以上の MDisk がシステムに低速のサービスを提供しているために、アプリケーションの入出力操作をアプリケーション・ホストの必要とする速度で進めることができない場合は、1920 エラーが発生します。
バックエンド・
ストレージ・システムの要件が守られていた場合は、
ストレージ・システム・パフォーマンスの低下が、エラーの原因であった可能性があります。
2 次システムの MDisk ごとに、バックエンドの書き込み応答時間を確認してください。
個々の MDisk の応答時間が突然 50 ms 以上増加したり、応答時間が 100 ms を超えていたりする場合、それは問題が生じていることを示しています。 以下の確認を行って、
ストレージ・システムが過負荷かどうかを判別します。
- ストレージ・システムを確認して、メディア・エラー、物理ディスクの障害などのエラー条件、または RAID 再ビルドのような関連アクティビティーを調べます。問題があれば修正し、グローバル・ミラー関係を再開します。
- エラーがない場合は、必要なレベルのアプリケーション・ホストの入出力操作を 2 次ストレージ・システムが処理できるかどうかを判別します。アレイへの物理ディスクの追加、アレイの RAID レベルの変更、ストレージ・システムのキャッシュ設定値の変更、キャッシュ・バッテリーが作動可能であることの確認、またはストレージ・システムの他の特定の構成パラメーターの変更といった操作を実行することによって、ストレージ・システムのパフォーマンスを向上できる可能性があります。
- 1 次システムのストレージ・システムは過負荷ですか。
2 次バックエンド・ストレージの場合と同じステップを使用して、1 次バックエンド・ストレージのパフォーマンスを分析します。パフォーマンスが悪い場合は、アプリケーション・ホストが実行できる入出力操作数を制限します。グローバル・ミラー関係が影響を受けていない場合でも、1 次サイトでのバックエンド・ストレージをモニターします。悪いパフォーマンスが長く続く場合は、1920 エラーが発生し、グローバル・ミラー関係は停止します。
- いずれかの Storwize V3700・システムが過負荷ですか。
ポートからローカル・ノードへの送信応答時間と、ローカル・ノード送信キュー時間を確認します。
いずれかのシステムのこれらの 2 つの統計の合計が 1 ミリ秒を上回っている場合は、システムに高い入出力の負荷がかかっています。Storwize V3700・ノードの CPU 使用状況も確認します。この数値が 50% を上回っている場合も、問題の原因となっている可能性があります。
いずれの場合も、IBM サービス担当員に連絡をとって、支援を依頼します。
- 2 次システムで、FlashCopy® 操作が準備済み状態ですか。
グローバル・ミラーの補助ボリュームが FlashCopy マッピングのソースであり、そのマッピングの準備済み状態の時間が延長されている場合は、キャッシュが使用不可であるためにそれらのボリュームへのパフォーマンスが影響を受ける可能性があります。FlashCopy マッピングを開始して、キャッシュを使用可能にし、グローバル・ミラーの入出力操作のパフォーマンスを改善します。