Dicas de Resolução de Problemas do Ambiente de Alta Disponibilidade

Examine os tópicos a seguir se encontrar um problema com um ambiente de alta disponibilidade.

[AIX Solaris HP-UX Linux Windows][z/OS]

A mensagem HMGR0218I não é exibida após o início de uma a Java Virtual Machine

Em um ambiente de alta disponibilidade configurado corretamente, um gerenciador de alta disponibilidade pode reavaliar o ambiente que está gerenciando e aceitar novos componentes conforme eles são incluídos no ambiente. Por exemplo, quando uma JVM (Java™ Virtual Machine) é incluída na infra-estrutura, começa um processo de descoberta. Durante a inicialização, a JVM tenta contactar os outros membros do grupo principal. Quando ela localiza outra JVM em execução, ela inicia um processo de junção com essa JVM que determina se a JVM pode ou não se unir ao grupo principal. Se a nova JVM for aceita como membro do grupo principal, todas as JVMs, incluindo a nova, registrarão a mensagem HMGR0218I. Essa mensagem também é exibida no console administrativo.

A mensagem HMGR0218I indica o número de servidores de aplicativos no grupo principal que estão on-line atualmente. Se essa mensagem não for exibida depois que uma JVM iniciar, ocorreu um problema de configuração ou um problema de comunicação. Para corrigir esta situação, verifique se o servidor de aplicativos está em execução em uma configuração atual, utilizando o Deployment Manager para instruir o agente do nó a sincronizar, ou utilize o comando syncNode para executar a sincronização manualmente. Se a JVM ainda não puder se unir ao grupo principal, existirá um problema de configuração de rede.

[IBM i]

A mensagem HMGR0218I não é exibida depois que um servidor inicia

Em um ambiente de alta disponibilidade configurado corretamente, um gerenciador de alta disponibilidade pode reavaliar o ambiente que está gerenciando e aceitar novos componentes conforme eles são incluídos no ambiente. Por exemplo, quando uma Java Virtual Machine (servidor) é incluída na infra-estrutura, começa um processo de descoberta. Durante a inicialização, o servidor tenta contactar os outros membros do grupo principal. Ao encontrar outro servidor em execução, ele inicia um processo de junção com tal servidor para determinar se este pode ou não se unir ao grupo principal. Se o novo servidor for aceito como membro do grupo principal, todos os servidores, incluindo o novo, apresentarão no registro a mensagem HMGR0218I. Essa mensagem também é exibida no console administrativo.

A mensagem HMGR0218I indica o número de servidores de aplicativos no grupo principal que estão on-line atualmente. Se essa mensagem não for exibida depois que um servidor iniciar, ocorreu um problema de configuração ou de comunicação. Para corrigir esta situação, verifique se o servidor de aplicativos está em execução em uma configuração atual, utilizando o Deployment Manager para instruir o agente do nó a sincronizar, ou utilize o comando syncNode para executar a sincronização manualmente. Se o servidor ainda não puder se unir ao grupo principal, há um problema de configuração de rede.

A Mensagem HMGR0123I Aparece no Arquivo do Log do Sistema

A mensagem HMGR0123I poderá aparecer no arquivo de log do sistema se o status dos membros do grupo principal for alterado ao mesmo tempo que o coordenador ativo. Por exemplo, essa mensagem poderá ser emitida quando um membro do grupo principal reiniciar e tornar-se o coordenador ativo.

Essa mensagem informativa normalmente não indica um problema sério. Mesmo se a mensagem aparecer no arquivo de log do sistema, o novo coordenador ativo receberá o status do grupo atualizado. Se você desejar minimizar as ocorrências dessa mensagem, deverá selecionar um membro do grupo principal que não reinicia freqüentemente como o coordenador preferido grupo principal.

Mensagens de Esgotamento da CPU no Arquivo de Log do Sistema

As mensagens de erro Detectado esgotamento da CPU são exibidas no arquivo de log do sistema sempre que não existe memória física suficiente disponível para permitir que os encadeamentos do High Availability Manager tenham tempos de execução consistentes. Quando a CPU estiver consumindo a maior parte de seu tempo tentando carregar processos swapped out enquanto processa o trabalho que chega, pode ocorrer esgotamento de encadeamentos. O gerenciador de alta disponibilidade detecta essa condição e registra estas mensagens de erro, informando que os encadeamentos não estão obtendo o tempo de execução necessário.

Para obter bom desempenho e evitar receber essas mensagens de erro, recomenda-se alocar pelo menos 512 MB de RAM para cada processo Java em execução em uma única máquina.

Uso Elevado da CPU numa Configuração de Célula de Grande Porte Quando a Segurança Está Ativada

Com determinadas configurações e estados, a quantidade de tempo gasto na descoberta torna-se substancial.
  • Se um grande número de processos estiver definido dentro de um grupo principal, um número proporcionalmente grande de conexões deve ser estabelecido para dar suporte a tais processos.
  • Se um grande número de processos inativos estiverem definidos dentro de um grupo principal, um número proporcionalmente grande de conexões são tentadas durante cada intervalo de descoberta.
  • Se a segurança administrativa estiver ativada, as conexões DCS serão protegidas e o impacto de abrir uma conexão aumentará grandemente.

Utilize a página Descoberta e detecção de falha no console administrativo para aumentar o período de tempo que o Protocolo de Descoberta aguarda para calcular o conjunto de membros do grupo principal não conectados e tenta abrir conexões para eles. Aumentar o tempo entre os períodos de descoberta consecutivos diminui o período de tempo de CPU utilizado na descoberta. Leia o tópico Configurando o Protocolo de Descoberta de um Grupo Principal para obter informações adicionais.

Falhas de pulsação de alta disponibilidade temporária com carga pesada

Com carga pesada, podem ocorrer condições de falha de pulsação temporária entre os parceiros de replicação em uma configuração de alta disponibilidade, muito embora os dois parceiros de replicação pareçam estar sendo executados adequadamente.

[Linux]Para sistemas operacionais Linux, esse problema pode ser provocado por problemas de conexão TCP no canal de replicação entre os parceiros de replicação. Esses problemas de conexão ocorrem porque o buffer do TCP não é grande o suficiente para suportar o alto volume de dados de replicação que estão sendo trocados. Para evitar condições de falha de pulsação intempestiva, recomendamos ajustar os tamanhos do buffer de TCP como recomendado na seção de ajuste de kernel do Linux do tópico que descreve como ajustar servlets SIP para Linux.


Ícone que indica o tipo de tópico Tópico de Referência



Ícone de registro de data e hora Última atualização: last_date
http://www14.software.ibm.com/webapp/wsbroker/redirect?version=cord&product=was-nd-mp&topic=rtrb_ha_env_trbl
Nome do arquivo: rtrb_ha_env_trbl.html