ソリューション・リカバリーは、さまざまなトリガーの結果として必要になります。
ソリューション・リカバリーとは、操作を再開可能な状態にシステムを戻すプロセスのことです。これには、予期できない状況によってトリガーされる可能性があるシステム障害またはシステムの不安定性に対処するためのアクティビティーのセットが含まれます。
以下の状況では、ソリューション・リカバリー・アクティビティーを実行する必要があります。
異常終了またはシステム・ダウンは、電源異常または壊滅的なハードウェアの故障が原因で発生します。これはシステム (すべてではないとしてもほとんどの JVM) が停止する原因となります。
壊滅的なハードウェア障害の場合、デプロイされたソリューションは、再始動時に一貫性を欠いた状態になることがあります。
ハードウェアの障害や環境の問題は、他の要因ほど多くはありませんが、予定外のダウン時間の原因ともなります。
自己最適化リソース調整による最新の LPAR 機能、(システムの過負荷を回避する) Capacity on Demand、およびシステム内での冗長ハードウェア (単一機器の故障がシステム全体の故障となるのを防止する) などの機能を使用することにより、ハードウェア障害と環境の問題が発生する可能性を低くすることができます。
新規要求がシステム内に流れ込み続けていますが、表面上は、すべての処理が停止したように見えます。
システムは応答しており、データベースは正常に稼働しているように見えます。しかし、新規プロセス・インスタンスの作成に失敗します。
基盤となるインフラストラクチャーの障害の場合、ソリューションでは、そのインフラストラクチャー障害が解決された後にビジネス・トランザクションの再開/再実行依頼を管理することが必要になる場合があります。
システムは機能していても深刻な過負荷状態になっている。トランザクションのタイムアウトが報告され、計画容量からオーバーフローしている証拠があります。
キャパシティー・プランニングまたはパフォーマンス・チューニングが不完全であると、このタイプのソリューションの不安定性の原因となる場合があります。
カスタム開発ソリューションの一部になっているモジュールには、バグが含まれる可能性があります。これらのバグにより、ソリューションが不安定になったり、サービスの実行に失敗したりします。
カスタム開発ソリューション内のバグは、以下を含む (ただし、それらに限定されることなく) さまざまな状況が原因となります。
詳細なエラー処理設計を行うことにより、ソリューションの不安定性を削減することができます。
WebSphere 製品の欠陥により、イベントのバックログが処理またはクリアされます。