WebSphere Enterprise Service Bus, Versão 6.2.0 Sistemas Operacionais: AIX, HP-UX, i5/OS, Linux, Solaris, Windows


Avaliando o Estado do Sistema

A primeira coisa a fazer quando ocorre uma condição anormal é verificar a condição do sistema geral e ter a sensibilidade para perceber quanto e como o sistema está operacional e como isso afeta a condição de ‘fora de serviço' por qualquer estimulo externo que tenha causado essa condição.

Aborde um conjunto predefinido de questões para avaliar a extensão da interrupção. A lista a seguir fornece exemplos de questões predefinidas designadas para ajudá-lo a reunir as informações apropriadas:
  1. Este sistema ainda está desempenhando algum trabalho?

    Determine se o sistema ainda está operacional. Frequentemente, um sistema pode estar operacional mas, devido à sobrecarga ou ajuste inapropriado, ou ambos, o sistema não está concluindo tarefas rapidamente e/ou está tentando executar um trabalho que está de fato falhando.

    O teste definitivo para cada uma destas questões será específico da natureza da solução implementada.

  2. Qual suporte especial de manipulação de erros está integrado no aplicativo?

    Se houver muitas novas tentativas automatizadas e várias lógicas de suporte, o próprio aplicativo poderá evitar que ocorram alguns erros no operador de TI.

    Estas condições devem ser conhecidas e documentadas par referência pela equipe de recuperação.

As coisas que você pode fazer para ajudar a avaliar o estado do sistema incluem:
  1. Verifique se o servidor está pelo menos em execução.

    Você vê o PID ou obtém um feedback positivo do gerenciador de implementação através do console administrativo?

  2. Verifique se existem bloqueios no(s) banco(s) de dados ou algum tráfego incomum do banco de dados.
    A maioria dos bancos de dados terá recursos para examinar bloqueios. Dependendo da topologia de implementação, pode haver vários bancos de dados.
    • Banco de Dados do Mecanismo do Sistema de Mensagens
    • Banco de Dados do Contêiner de Processo de Negócios
    • Banco de Dados Comum do WebSphere Process Server (Dados de Eventos com Falha e de Relacionamento)
  3. Verifique qual é o status do sistema de mensagens.
    Verifique eventos ou mensagens nos seguintes locais:
    • Destinos de Suspensão e de Retenção do Business Process Choreographer
    • Número de eventos com falha
    • Número de mensagens nos destinos do módulo de soluções
  4. Verifique se o banco de dados está funcionando.

    Você pode desempenhar alguma operação SELECT simples em dados desbloqueados em um período de tempo aceitável?

  5. Verifique se existem erros no log do banco de dados.

Se o banco de dados não estiver funcionando corretamente, a recuperação dele (para que ele possa pelo menos liberar bloqueios e desempenhar seleções simples) será vital para a recuperação do sistema.

Se o sistema de mensagens não estiver funcionando corretamente, a recuperação dele, para que possa pelo menos ser visualizado e gerenciado, também será vital para a recuperação do sistema.

Nota: Uma abordagem ‘bottoms up' nem sempre é conclusiva. No entanto, as chances de recuperação bem-sucedida variam, com base nestas atividades básicas.

A partir destes procedimentos básicos e de tipos de atividades de verificação de funcionamento, precisamos agora começar a consultar algumas situações específicas. Padrões serão descritos, informações específicas serão fornecidas e insights do que está ocorrendo nos bastidores serão fornecidos.

Imagine que esta análise de situação é uma atividade de leitura. Enquanto fornece informações vitais das quais é possível determinar as ações de recuperação apropriadas, ela não deve alterar o estado do sistema em revisão. É impossível prever e fornecer ações prescritivas para todas as possíveis causas de uma interrupção do sistema. Por exemplo, considere a seguinte árvore de decisão:

Um diagrama que mostra a árvore de decisão para abordagem de recuperação.

Existem muitas categorias amplas para investigar em caso de uma interrupção não planejada. Estas categorias amplas terão subcategorias e outros. A definição de ações prescritivas para cada nó e o nó subsequente dependerá dos resultados de cada investigação. Como este tipo de relacionamento é difícil de transmitir em um formato de documento, a utilização de uma ferramenta de suporte como IBM® Guided Activity Assist para conduzí-lo interativamente pelo processo investigativo e de tomada de decisão é recomendada. Conforme progredimos a partir do início para cada nó-filho, é importante conduzir o nível apropriado de análise situacional.


concept Tópico de Conceito

Termos de Uso | Feedback


Ícone de registro de data e hora Última Atualização: 01 julho 2010


http://publib.boulder.ibm.com/infocenter/dmndhelp/v6r2mx/topic//com.ibm.websphere.wesb620.doc/doc/cpln_assess_sys_state.html
Copyright IBM Corporation 2005, 2010. Todos os Direitos Reservados.
Este Centro de Informações foi desenvolvido com tecnologia Eclipse (http://www.eclipse.org).