![[AIX Solaris HP-UX Linux Windows]](../images/dist.gif)
![[z/OS]](../images/ngzos.gif)
지능형 관리: 문제점 해결 상태 관리
상태 관리가 작동하지 않거나 예상하는 방법으로 작동하지 않을 때 다음 문제점을 찾을 수 있습니다.
올바른 로그 찾기
상태 제어기는 고가용성(HA) 관리자에 의해 관리되는 분배된 자원입니다. 이는 모든 노드 에이전트 및 배치 관리자 프로세스에 있고 이러한 프로세스 중 하나에서 활성화됩니다. 프로세스에 실패하면, 제어기는 다른 노드 에이전트 또는 배치 관리자 프로세스에서 활성화됩니다.
상태 제어기가 실행 중인 위치를 판별하려면 관리 콘솔에서
를 클릭하십시오. 상태 제어기의 위치 및 안정성 상태가 표시됩니다.성능 어드바이저는 사전 정의된 메모리 누수 상태 정책으로 사용됨
사전 정의된 메모리 누수 상태 정책은 성능 어드바이저 기능을 사용합니다. 따라서, 성능 어드바이저는 이 정책이 멤버를 지정할 때 사용됩니다. 성능 어드바이저를 사용하지 않으려면 이 상태 정책을 제거하거나 상태 정책의 멤버십을 좁히십시오. 향후 사용을 위해 상태 정책을 유지하려면 메모리 누수 정책을 유지하지만 모든 멤버는 제거하십시오. 멤버를 변경하려면 를 클릭하십시오. 특정 멤버를 추가하고 제거하여 상태 정책 멤버십을 편집할 수 있습니다.상태 제어기 설정
다음 목록에는 상태 제어기 설정의 결과로 발생되는 문제점이 포함됩니다.- 상태 제어기가 사용 안함으로 설정됨
- 관리 콘솔에서 설정을 확인하려면 구성 및 런타임 탭 모두를 선택하십시오. 상태 제어기가 기본적으로 사용됩니다. 를 클릭하고
- 다시 시작이 현재 금지됩니다.
- 관리 콘솔에서 금지된 다시 시작 시간을 확인하려면 금지된 다시 시작 필드를 선택하십시오. 기본적으로, 금지된 시간 값이 없습니다. 를 클릭하고
- 이전 다시 시작 이후에 곧바로 다시 시작
- 관리 콘솔에서 최소 다시 시작 간격을 확인하려면 최소 다시 시작 간격 필드를 선택하십시오. 기본적으로 정의된 최소 간격이 없습니다. 를 클릭하고
- 제어 순환이 너무 김
- 관리 콘솔에서 제어 순환 길이를 확인하려면 를 클릭하고 필요한 경우 값을 조정하십시오. 상태 제어기는 주기적으로 정책 위반을 검사합니다. 해당 제어 순환 길이가 너무 길면 서버를 충분히 빠르게 다시 시작할 수 없습니다.
- 서버는 연속적으로 X번 다시 시작되고 상태 조건이 계속 위반됨
- 이 경우 X는 상태 제어기의 최대 연속적인 다시 시작 매개변수를 표시합니다. 상태 제어기는 다시 시작이 문제점을 해결하지 않는다고 결론 내리고 서버에 대한 다시 시작을 사용 안함으로 설정합니다. 다음 메시지가 로그에 표시됩니다.
WXDH0011W: Server servername exceeded maximum verification failures: disabling restarts.
상태 제어기가 서버를 계속 모니터링하고 상태 정책이 위반되면 로그에 메시지를 표시합니다.WXDH0012W: Server servername with restarts disabled failed health check.
다음 조치 중 하나를 수행하여 서버를 위한 다시 시작을 사용할 수 있습니다.- 상태 제어기를 사용 안함으로 설정한 다음 사용으로 설정하십시오.
- 최대 연속적인 다시 시작 제어기 설정을 조정하십시오.
- 프롬프트에서 다음 명령을 실행하십시오.
이 스크립트는 노드 에이전트 또는 배치 관리자 노드의 <app_server_root>\bin 디렉토리에서 사용할 수 있습니다. 이 스크립트에는 실행 중인 배치 관리자가 필요합니다.wsadmin -profile HmmControllerProcs.jacl enableServer servername
상태 정책 설정
상태 정책 설정의 결과로 다음 문제점이 발생합니다.- 서버는 상태 정책의 일부가 아님
- 상태 정책 멤버십이 관리 콘솔에서 서버에 적용되는지 확인하려면 을 클릭하십시오.
- 서버를 포함하는 정책의 반응 모드는 통제된 모드임
- 관리 콘솔을 확인하려면 통제된 모드에서 정책에 대한 다시 시작 조치에 대한 승인 요청을 찾으십시오.
반응 모드를 자동으로 설정할 때 서버가 자동으로 다시 시작됩니다. 다음 메시지가 통제된 조건에 대한 로그에 작성됩니다.
WXDH0024I: Server server name has violated the health policy health condition, reaction mode is supervised.
를 클릭하십시오. - 서버는 정적 클러스터의 멤버이고 이는 실행 중인 유일한 클러스터 멤버임
- 상태 정책은 동시에 모든 클러스터 멤버를 중지하지 않습니다. 클러스터에 하나의 클러스터 멤버가 있거나 하나의 클러스터 멤버가 실행 중인 경우, 클러스터가 다시 시작되지 않습니다.
- 서버는 동적 클러스터의 멤버입니다. 실행 중인 인스턴스의 수는 최소 값을 초과하지 않고 배치 제어기는 사용 안함으로 설정됨
- 동적 클러스터에 대한 필수 인스턴스의 최소 수를 확인하려면 관리 콘솔에서 를 클릭하십시오. 이 경우, 상태 관리는 최소 수의 인스턴스 매개변수를 사용하여 정적 클러스터와 같이 동적 클러스터를 처리합니다.
- 상태 제어기가 정책을 수신하지 않음
- 상태 정책이 작성되는 배치 관리자에서 상태 제어기가
실행되지 않습니다. 상태 제어기가 시작된 이후
배치 관리자가 다시 시작되는 경우, 상태 제어기에
새 정책이 있을 수 없습니다. 이 문제점을 해결하려면 다음 단계를 수행하십시오.
- 상태 제어기를 사용 안함으로 설정하십시오. 관리 콘솔에서 를 클릭하십시오.
- 백엔드 노드로 구성 저장소를 동기화하십시오. 관리 콘솔에서 동기화를 클릭하십시오. 를 클릭하십시오. 동기화하기 위한 노드를 선택하고
- 상태 제어기를 다시 시작하십시오. 관리 콘솔에서 를 클릭하십시오.
- 백엔드 노드로 구성 저장소를 동기화하십시오. 관리 콘솔에서 동기화를 클릭하십시오. 를 클릭하십시오. 동기화하기 위한 노드를 선택하고
애플리케이션 배치 제어기 상호작용
다음 목록에는 상태 관리 및 애플리케이션 배치 제어기 상호작용으로 트리거되는 문제점이 포함됩니다.
- 서버가 동적 클러스터의 멤버이지만 배치 관리자가 연결될 수 없음
- 동적 클러스터 멤버의 경우, 상태 모니터링은 서버가
다시 시작될 수 있는지를 판별하기 위해 애플리케이션 배치 제어기를
검사합니다. 애플리케이션 배치 제어기가 사용되지만 연결될 수 없는 경우,
다음 메시지가 로그에 표시됩니다.
배치 제어기가 실행 중인지 확인하십시오. 상태 제어기가 실행 중인 위치를 판별하려면 관리 콘솔에서 를 클릭하십시오. 상태 제어기의 위치 및 안정성 상태가 표시됩니다. 상태 제어기는 현재 위치에서 표시하는 특정 노드 에이전트 또는 배치 관리자에 메시지를 로그합니다.WXDH1018E: Could not contact the placement controller
- 서버가 중지되지만 시작되지 않습니다.
- 동적 클러스터에서 다시 시작은 여러 형식 중 하나를 취할 수 있습니다.
- 적절하게 다시 시작하십시오(서버 중지, 서버 시작). 참고: 동적 클러스터가 수동 모드에 있을 때 항상 발생합니다.
- 다른 노드에서 서버 인스턴스를 시작하고 실패한 것은 중지하십시오.
- 나머지 애플리케이션 인스턴스가 요구를 충족한다고 가정하여 실패한 서버만 중지하십시오.
- 적절하게 다시 시작하십시오(서버 중지, 서버 시작).
센서 문제점
다음 목록에는 상태 관리 및 노드 그룹 멤버십 설정과 관련되는 문제점이 포함됩니다.
- 서버에 대해 수신된 센서 데이터가 없습니다.
- 정책에 필요한 센서로부터 수신된 데이터가 없는 경우
상태 관리는 정책 위반을 발견할 수 없습니다. 센서 데이터가
제어 순환 동안 수신되지 않는 경우,
상태 관리는 다음 로그 메시지를 인쇄합니다.
응답 시간 조건의 경우, 상태 성능이 ODR(On Demand Router)로부터 데이터를 수신합니다. 요청이 ODR을 통해 전송될 때까지 이러한 조건에 대해 생성된 데이터가 없습니다.WXDH3001E: No sensor data received during control cycle from server server_name for health class healthpolicy.
태스크 관리 상태
때로는 조치 다시 시작 태스크 상태가 실패 또는 알 수 없음 상태로 완료됩니다. 이 시나리오는 기본적으로 할당되는 시간 동안 서버가 중지되지 않을 때 또는 태스크가 제한시간 초과일 때 발생합니다. 다음 셀 레벨 특성을 사용하여 사용자 환경에 대한 제한시간을 조정하십시오(HMM.StopServerTimeout). 값은 밀리초로 표시되고 기본값은 10000입니다. 이 특성을 사용하면 상태 관리자가 On Demand 구성에서 수신하는 서버 중지 알림에 대한 대기 시간을 확장할 수 있습니다.사용자 환경에 대한 제한시간을 증가하려면
으로 이동하십시오. 기본값은 5분입니다. 서버가 중지 및 시작되도록 허용하여 지정되는 양보다 두배 이후에 다시 시작 태스크가 시작됩니다.