O recurso gmlinktolerance monitora os tempos de resposta para relacionamentos Global Mirror em modo noncycling. Você pode utilizar o comando da CLI chsystem ou o GUI de gerenciamento para configurar o recurso de gmlinktolerance. O recurso gmlinktolerance representa o número de segundos que o
sistema primário Storwize V3700
sistema em cluster
tolera tempos de respostas lentos
do sistema secundário.
Se a resposta insatisfatória se estender além da tolerância especificada, um erro 1920 será registrado. Além disso, um ou mais
relacionamentos de Global Mirror são automaticamente interrompidos para proteger os hosts de aplicativos no local primário. Durante a operação normal, os hosts de aplicativos consulte um impacto mínimo para os tempos de resposta porque o recurso Global Mirror usa a replicação assíncrona. Entretanto, se as operações de
Global Mirror obtiverem tempos de resposta comprometidos do sistema secundário por um tempo estendido, a fila de operações de E/S no sistema primário. Isso resulta em um tempo de resposta estendido para hosts de aplicativos. Nessa situação, o recurso gmlinktolerance para os relacionamentos Global Mirror e o aplicativo hospeda o tempo de resposta retorna para normal. Após um erro 1920, os
volumes auxiliares do Global Mirror não estarão mais no estado consistent_synchronized até que a causa do erro seja corrigida e os seus relacionamentos Global Mirror sejam reiniciados. Por esse motivo, assegure-se de que você monitore o sistema para rastrear quando esse erro ocorrer.
Você pode desativar o recurso gmlinktolerance definindo o valor gmlinktolerance para 0 (zero). Entretanto, o recurso gmlinktolerance não pode proteger os aplicativos de tempos de resposta estendidos se ele estiver desativado. Pode ser apropriado para desativar o recurso gmlinktolerance nas seguintes circunstâncias:
- Durante as janelas de manutenção da SAN, em que o desempenho comprometido é esperado de componentes da SAN e os hosts de
aplicativos podem resistir a tempos de resposta estendidos de volumes do Global Mirror.
- Durante períodos em que os hosts de aplicativos podem tolerar tempos de reposta estendidos, é esperado que o recurso
gmlinktolerance pare os relacionamentos do Global Mirror. Por exemplo, se você estiver testando utilizando um gerador de E/S que está configurado para estressar o armazenamento de backend, o recurso gmlinktolerance poderá detectar a alta latência e parar os relacionamentos do Global Mirror.
Desativando gmlinktolerance impede que esta o risco de expor o host de teste para os tempos de resposta estendida.
Diagnosticando e corrigindo erros 1920
Um erro 1920 indica que um ou mais dos
componentes da SAN não conseguem fornecer o desempenho que é requerido pelos hosts de aplicativos. Isso pode ser temporária (por exemplo, um resultado de atividade de manutenção) ou permanente (por exemplo, um resultado de uma falha de hardware ou carga de E/S do host inesperado).
Se o erro 1920 foi precedido pelo evento informativo 985004,
Atraso máximo de replicação foi excedido, o sistema pode não localizar um caminho para
o disco no sistema remoto dentro do valor de tempo limite de atraso máximo de replicação. Investigue o
sistema remoto para localizar e reparar quaisquer caminhos degradados. Também é possível usar
o comando lssystem para visualizar o valor maxreplicationdelay. Se
o valor for muito baixo, use o comando chsystem para especificar um novo valor
de maxreplicationdelay.
Se você estiver experimentando outros erros 1920, configure uma ferramenta de análise de desempenho da SAN, como o
IBM® Spectrum
Control, e certifique-se de que ela esteja configurada corretamente e
monitorando estatísticas quando o problema ocorrer. Configurar ferramenta de análise do desempenho do SAN para o mínimo disponível estatísticas do intervalo de coleta. Para um sistema
IBM Spectrum
Control, o intervalo mínimo é 5 minutos. Se
vários erros 1920 ocorrerem, diagnostique a causa do erro mais antigo primeiro. As perguntas a seguir podem ajudá-lo a determinar a causa do erro:
- A manutenção que ocorrem no momento do erro?
Isso pode incluir a substituição de um disco físico
do sistema de armazenamento,
atualizando do firmware do
sistema de armazenamento ou a conclusão de uma
atualização de código em um dos sistemas
Storwize V3700.
Antes de reiniciar os relacionamentos no modo de ciclo do Global Mirror, deve-se esperar até que o procedimento de manutenção seja concluído. Caso contrário, outro erro 1920 será emitido porque o sistema ainda não retornou a um estado estável com bom desempenho.
- Havia algum erro não corrigido no sistema de origem ou de destino?
Se
sim, analise-os para determinar se eles são a razão deste erro. Em especial, determine se os erros relacionados ao
volume ou MDisks (discos
gerenciados) que estão sendo usados no relacionamento ou se os erros reduziram o desempenho do sistema de destino. Assegure-se de que os erros sejam corrigidos antes de reiniciar o relacionamento do Global Mirror.
- É o link de longa distância sobrecarregado?
Se o link não é capaz de sustentar a carga de pico de Global Mirror de curto prazo, um erro 1920 pode ocorrer. Conclua as verificações a seguir para determinar se o link de
longa distância está sobrecarregado:
- Examine o rendimento total de gravação do volume auxiliar do
Global Mirror antes dos relacionamentos de Global Mirror serem interrompidos. Se esse volume estiver aproximadamente igual à sua largura da banda do link, o link poderá estar sobrecarregado. Isso pode ser devido a operações de E/S do host do aplicativo ou uma combinação de host de E/S e de segundo plano (sincronização) de cópia de atividades.
- Examine a total de Global Mirror de origem volume rendimento antes de gravar as relações de Global Mirror foram parados. Este valor representa as operações de E/S que estão sendo concluídas pelos hosts de aplicativos. Se essas operações estiverem se aproximando da largura da banda do link,
reduza as operações de E/S que o aplicativo está tentando concluir ou use o Global Mirror para copiar menos volumes. Se os discos mostrar operações de E/S de gravação auxiliar significativamente mais do que a origem de volumes, há um nível elevado de cópia em segundo plano. Diminua a taxa de cópia em segundo plano do Global Mirror parceria parâmetro para trazer a largura da banda de E/S aplicativo total e a taxa de cópia em segundo plano em recursos do link.
- Veja o rendimento total da gravação do volume de origem
do Global Mirror após os relacionamentos de Global Mirror serem interrompidos. Se
o rendimento de gravação aumentar em 30% ou mais quando os relacionamentos forem
interrompidos, os hosts de aplicativos estão tentando concluir mais operações
de E/S do que o link pode sustentar. Embora as relações de Global Mirror estiverem ativos, o link sobrecarregado faz com que tempos de resposta mais altos para o host do aplicativo, o que diminui o rendimento pode atingir. Depois que os relacionamentos de Global Mirror tiver parado, o aplicativo do host vê os tempos de resposta inferior. Neste caso, a largura de banda de link deve ser aumentada, a taxa de E/S do host do aplicativo deve ser diminuída ou menos volumes deve ser copiado utilizando o Global Mirror.
- Os sistemas de armazenamento no sistema secundário estão sobrecarregados?
Se as operações de E/S do aplicativo não pode continuar na taxa necessários pelo aplicativo porque um ou mais MDisks é host fornecendo um serviço ruim para o sistema, um erro 1920 ocorrerá.
Se os requisitos do
sistema de armazenamento de backend forem seguidos, o erro poderá ter sido causado por uma diminuição no
desempenho do
sistema de armazenamento.
Verifique o tempo de resposta de gravação de backend para cada MDisk no sistema secundário.
Um tempo de resposta para um MDisk maior que 50 ms ou mais repentinamente individual ou um tempo de resposta acima de 100 ms indica um problema. Conclua as verificações a seguir para determinar se os
sistemas de armazenamento estão
sobrecarregados:
- Verifique o sistema de armazenamento para condições de erro, como erros de mídia, um disco físico falhou, ou atividade associada, como a reconstrução RAID. Corrija quaisquer problemas e, em seguida, reinicie os relacionamentos do Global Mirror.
- Se não houver erro, determine se o sistema de armazenamento secundário
pode processar o nível necessário de operações de E/S do host de aplicativos. Pode ser possível melhorar o desempenho do
sistema de armazenamento incluindo mais discos físicos em uma matriz, mudando o nível do
RAID da matriz, mudando as configurações de cache do sistema de armazenamento,
assegurando que a bateria de cache esteja operacional ou mudando outros parâmetros de configuração específicos do sistema de armazenamento.
- Os sistemas de armazenamento no sistema primário estão sobrecarregados?
Analise o desempenho do armazenamento de backend primário usando as mesmas etapas que
para o armazenamento de backend secundário. Se o desempenho for ruim, limite o número de operações de E/S que podem ser concluídas pelos hosts de aplicativos. Monitore o armazenamento de backend no local primário, mesmo se os relacionamentos do
Global Mirror
não foram afetados. Se o desempenho ruim continua por um período prolongado, um erro 1920 ocorre e os relacionamentos Global Mirror estão parados.
- Um de seus sistemas Storwize V3700 está sobrecarregado?
Verifique o tempo de resposta do envio do nó local para a porta e o tempo da fila de envio do nó local.
Se o total dessas duas estatísticas para qualquer um dos sistemas estiver acima de 1 milissegundo, o sistema poderá estar enfrentando uma carga de E/S alta. Além
disso, verifique a utilização da CPU do nó do Storwize V3700. Se este número for superior a 50%, isso também pode contribuir para o problema. Em qualquer um dos casos, entre em contato com seu Representante de serviços IBM para obter assistência adicional.
- Você tem operações do FlashCopy no estado preparado no sistema secundário?
Se o Global Mirror auxiliar volumes são as origens de um mapeamento FlashCopy e que o mapeamento está no estado preparado por um tempo estendido, o desempenho para os volumes pode ser impactado porque o cache está desativado.
Inicie o mapeamento FlashCopy para ativar o cache e melhorar o desempenho para operações de Global Mirror de E/S.