1194   A recuperação automática do nó offline falhou.

Explicação

O cluster tem um nó offline e determinou que um dos nós candidatos corresponde às características do nó offline. O cluster tentou mas falhou ao incluir o nó de volta no cluster. O cluster tentou mas parou de tentar incluir automaticamente o nó de volta no cluster.

Se um nó tiver dados de estado incompletos, ele permanecerá offline após seu início. Isso ocorrerá se o nó tiver uma perda de energia ou uma falha de hardware que impediu de concluir a gravação de todos os dados de estado no disco. O nó relata um erro de nó 578 quando está nesse estado.

Se tiverem sido feitas três tentativas de incluir automaticamente um nó candidato correspondente em um cluster, mas o nó não tiver retornado ao estado online por 24 horas, o cluster para de tentar incluir automaticamente o nó e registra o código de erro 1194 "Falha de recuperação automática do nó offline".

Dois cenários possíveis quando este evento de erro é registrado são:

  1. O nó falhou sem salvar todos os seus dados de estado. O nó foi reiniciado, possivelmente depois de um reparo, e mostra o erro de nó 578 e é um nó de candidato para junção do cluster. O cluster tenta incluir o nó no cluster mas não é bem-sucedido. Depois de 15 minutos, o cluster faz uma segunda tentativa de incluir o nó no cluster e novamente não obtém êxito. Depois de 15 minutos, o cluster faz uma terceira tentativa de incluir o nó no cluster e novamente não obtém êxito. Após outros 15 minutos, o cluster registra o código de erro 1194. O nó nunca ficou online durante a tentativa de incluí-lo no cluster.
  2. O nó falhou sem salvar todos os seus dados de estado. O nó foi reiniciado, possivelmente depois de um reparo, e mostra o erro de nó 578 e é um nó de candidato para junção do cluster. O cluster tenta incluir o nó no cluster e é bem-sucedido, e o nó fica online. Dentro de 24 horas, o nó falha novamente sem salvar seus dados de estado. O nó reinicia e mostra o erro de nó 578 e é um nó candidato para junção do cluster. O cluster novamente tenta incluir o nó no cluster, é bem-sucedido e o nó se torna online. No entanto, o nó falha novamente dentro do período de 24 horas. O cluster novamente tenta uma terceira vez incluir o nó no cluster, é bem-sucedido e o nó se torna online. No entanto, o nó falha novamente dentro do período de 24 horas. Após outros 15 minutos, o cluster registra o código de erro 1194.

Uma combinação destes cenários também é possível.

Nota: Se o nó for removido manualmente do cluster, a contagem de tentativas de recuperação automática é reconfigurada para zero.

Resposta do Usuário

  1. Se o nó ficou continuamente online no cluster por mais de 24 horas, marque o erro como corrigido e acesse o MAP de Verificação de Reparo.
  2. Determine o histórico de eventos para este nó localizando eventos para este nome de nó no log de eventos. Observe que o ID do nó será alterado, assim corresponda o WWNN com o nome do nó. Além disso, verifique os registros de serviço. Especificamente, observe as entradas indicando um de três eventos: 1) o nó está ausente do cluster (erro de cluster 1195 evento 009052), 2) uma tentativa de recuperar automaticamente o nó offline está iniciando (evento 980352), 3) o nó foi incluído no cluster (evento 980349).
  3. Se o nó não tiver sido incluído no cluster desde o início do processo de recuperação, provavelmente há um problema de hardware. O disco interno do nó pode estar falhando de uma maneira em que não é possível modificar seu nível de software para corresponder ao nível de software do cluster. Se ainda não tiver determinado a causa-raiz do problema, é possível tentar remover manualmente o nó a partir do cluster e incluir o nó de volta no cluster. Monitore continuamente o status dos nós no cluster enquanto o cluster está tentando incluir o nó. Nota: Se o tipo de nó não for suportado pela versão do software do cluster, o nó não aparecerá como um nó candidato. Portanto, o hardware incompatível não é uma causa-raiz potencial desse erro.
  4. Se o nó tiver sido incluído no cluster, mas falhou novamente antes dele ter ficado online por 24 horas, investigue a causa-raiz da falha. Se nenhum evento no log de eventos indicar a razão da falha do nó, colete dumps e entre em contato com o suporte técnico IBM para obter assistência.
  5. Quando tiver corrigido o problema com o nó, você deve utilizar o console do cluster ou a interface da linha de comandos para remover manualmente o nó do cluster e incluir o nó no cluster.
  6. Marque o erro como corrigido e acesse o MAP de verificação.

FRUs de Causa Possíveis ou outra:

Nenhuma, embora a investigação possa indicar uma falha de hardware.