Corrigir erros de hardware
Antes de executar um procedimento de recuperação do sistema, é importante para identificar e corrigir a causa raiz dos problemas de hardware.
Identificando e corrigir a causa raiz pode ajudar a recuperar um sistema, se estas são as falhas que estão causando o sistema falhasse.
A seguir estão os problemas comuns que podem ser facilmente resolvidos:
- O nó foi desligado ou os cabos de energia foram desconectados.
- Verifique o status do nó de cada caixa do nó que faça parte deste sistema. Resolva todos os erros de hardware, exceto o erro de nó 578 ou erro de nó 550.
- Todos os nós devem estar relatando um erro de nó 578 ou um erro de nó 550. Esses códigos de erro indicam que o sistema perdeu seus dados de configuração. Se quaisquer nós relatarem algo diferente desses códigos de erro, não execute uma recuperação. É possível encontrar situações onde nós que não são de configuração relatem outros erros de nó, como um erro de nó 550. O erro 550 também pode indicar que um nó não pode se unir a um sistema.
- Se quaisquer nós mostrarem um erro de nó 550, registre os dados de erro que estão associados com o erro 550 partir do assistente de serviço.
- Além do erro de nó 550, o relatório pode mostrar dados que são separados por espaços em um dos seguintes formatos:
- Identificadores de nó no formato: <enclosure_serial>-<ID do slot de>(7 caracteres, hífen, 1 número), por exemplo, 01234A6-2
- Identificadores de unidade quorum no formato: <enclosure_serial>:<ID de slot de unidade>[< número de série da unidade 11S >] (7 caracteres, dois-pontos, 1 ou 2 números, colchete de abertura, 22 caracteres, colchete de fechamento), por exemplo, 01234A9:21[11S1234567890123456789]
- Identificador de MDisk quorum no formato: WWPN/LUN (16 dígitos hexadecimais seguidos por uma barra e um número decimal), por exemplo, 1234567890123456/12
- Se os dados de erro contiverem um identificador de nó, assegure que o nó que está referenciado pelo ID esteja mostrando erro de nó 578. Se o nó não estiver mostrando um erro de nó 550, assegure que os dois nós possam se comunicar entre si. Verifique a conectividade da SAN e se o erro 550 ainda está presente, reinicie um dos dois nós do assistente de serviço clicando em Reiniciar Nó.
- Se os dados de erro contiverem um identificador de unidade quorum, localize o gabinete com o número de série relatado. Verifique se o gabinete está ligado e se a unidade no slot relatado está ligado e funcionando. Se a caixa de nó que estiver relatando a falha estiver no grupo de E/S do gabinete listado, assegure que ele tenha conectividade SAS como o gabinete listado. Se a caixa de nó que está relatando a falha estiver em um grupo de E/S diferente do listado, assegure que o gabinete listado tenha conectividade SAS para ambas as caixas de nós no gabinete de controle em seu grupo de E/S. Após a verificação, reinicie o nó clicando em Reiniciar Nó a partir do assistente de serviço.
- Se os dados de erro contiverem um identificador MDisk quorum, verifique a conectividade da SAN entre este nó e esse WWPN. Verifique o controlador de armazenamento para assegurar que a LUN referenciada esteja online. Após a verificação, se o erro 550 ainda estiver presente, reinicie o nó a partir do assistente de serviço clicando em Reiniciar Nó.
- Se não houver dados de erro, o erro é porque existem conexões entre nós insuficientes na rede Fibre Channel. Cada nó deve ter pelo menos duas conexões lógicas Fibre Channel independentes, ou logins, para cada nó que não esteja no mesmo gabinete. Uma conexão independente é aquela em que ambas as portas físicas são diferentes. Nesse caso, há uma conexão entre os nós, mas não há uma conexão redundante. Se não houver dados de erro, aguarde por 3 minutes para que a SAN inicialize. Em seguida, verifique:
- Há no mínimo duas portas Fibre Channel que estão operacionais e conectadas em cada nó.
- O zoneamento da SAN permite que cada porta se a porta em todos os outros nós
- Todas as SANs redundantes (se utilizado) estão operacionais.
Após a verificação, se o erro 550 ainda estiver presente, reinicie o nó a partir do assistente de serviço clicando em Reiniciar Nó.
Nota: Se depois de resolver todos esses cenários, metade ou mais da metade dos nós estiverem relatando erro de nó 578, é adequado executar o procedimento de recuperação. Chame o IBM® Support Center para obter assistência adicional. - Além do erro de nó 550, o relatório pode mostrar dados que são separados por espaços em um dos seguintes formatos:
- Para quaisquer nós que estão relatando um erro de nó 550, assegure que todo o hardware ausente que for identificado por esses erros está ligado e conectado sem falhas.
- Se você não tiver sido capaz de reiniciar o sistema, e se algum nó diferente do nó atual estiver relatando o erro de nó 550 ou 578, você deverá remover os dados do sistema desses nós. Essa ação reconhece a perda de dados e coloca os nós no estado candidato necessário.