비정상 조건이 발생했을 때 수행해야 하는 첫 번째 작업은 전체 시스템의 펄스를 측정하여 시스템이 어느 정도 조작 가능하며 이 조건을 발생시킨 외부 자극에 의해 어느 정도 '서비스 불능' 상태가 되었는지 파악하는 것입니다.
시스템이 조작 중인지 판별하십시오. 시스템이 작동 가능하지만 과부하나 부적합한 조정 또는 둘 다로 인해 시스템이 타스크를 신속하게 완료하지 못하여 실제로 실패한 작업을 수행하려고 할 때가 많습니다.
이들 각 질문에 대한 리트머스 테스트가 전개된 솔루션 네이처에 대한 처방이 됩니다.
많은 자동화 재시도 및 다양한 지원 로직이 있는 경우, 응용프로그램 자체가 IT 운영자가 Manifest되지 않도록 오류로부터 보호합니다.
이러한 조건은 복구 팀에서 참조하도록 알려지고 문서화되어야 합니다.
관리 콘솔을 통해 Deployment Manager에서 긍적적인 피드백을 얻거나 PID를 보았습니까?
적합한 시간 내에 잠기지 않은 데이터에서 단순 SELECT 조작을 수행할 수 있습니까?
데이터베이스가 제대로 작동하지 않는 경우 데이터베이스를 복구해야(최소한 잠금 해제 및 단순 선택 수행 가능) 시스템이 복구됩니다.
메시지 시스템이 제대로 작동하지 않는 경우 메시지 서브시스템을 복구해야(최소한 보기 및 관리) 시스템이 복구됩니다.
기본 프로시저 및 성능 상태에서 활동의 종류를 점검하고 특정 상황을 찾아보기 시작해야 합니다. 패턴이 설명되고 특정이 제공되며 진행되고 있는 내용에 대한 안목이 제공됩니다.
이러한 상황 분석은 읽기 전용 활동임을 유의하십시오. 적합한 복구 조치를 판별하기 위해 중대한 정보를 제공하는 동안 검토 중에 있는 시스템 상태를 변경하면 안됩니다. 시스템 중단에 가능한 모든 원인에 대해 지시 조치를 예측 및 제공할 수 있습니다. 예를 들어, 다음 결정 트리를 고려하십시오.
계획되지 않은 중단 이벤트를 조사하기 위한 광범위한 카테고리가 있습니다. 광범위한 카테고리는 서브카테고리를 가지는 방식으로 계속됩니다. 각 노드 및 후속 노드에 대한 지시 조치 정의는 각 조사의 결과에 달려 있습니다. 이러한 유형의 관계는 문서 형식으로 전달하기 어렵기 때문에 IBM® 안내된 활동 지원과 같은 지원 도구를 이용하여 조사 및 의사 결정 프로세스에 대화식으로 접근하는 것이 좋습니다. 상위에서 각 하위 노드로 진행하는 동안 적합한 레벨로 상황 분석을 수행해야 합니다.