É possível configurar a quantidade de tempo entre
verificações do sistema para servidores com falha com a configuração
do intervalo de pulsação. A opção -heartbeat
é um parâmetro para o comando startOGserver e
só se aplica aos servidores de catálogos.
Sobre Esta Tarefa
A configuração de failover varia dependendo do tipo de ambiente que você
está usando. Se você estiver utilizando um ambiente independente, é possível configurar o failover com a linha de comandos. Se você estiver usando um ambiente do
WebSphere Application Server Network Deployment,
é necessário configurar o failover no console administrativo do
WebSphere Application Server Network Deployment.
Procedimento
- Configurar o failover para ambientes independentes.
É possível configurar intervalos de pulsação na linha de comandos ao usar o parâmetro -heartbeat no arquivo de script startOgServer. Configure esse parâmetro para um dos seguintes valores:
Tabela 1. Intervalos de PulsaçõesValor |
Ação |
Descrição |
0 |
Típica (padrão) |
Failovers são tipicamente detectados em 30 segundos. |
-1 |
Agressiva |
Failovers são tipicamente detectados em 5 segundos. |
1 |
Moderada |
Failovers são tipicamente detectado em 180 segundos. |
Um intervalo de pulsação agressivo
pode ser útil quando os processos e a rede estão estáveis. Se a rede ou os processos não são
configurados de maneira ideal, as pulsações podem ser perdidas, o que pode resultar em uma falsa
detecção de falhas.
- Configurar o failover para ambientes do WebSphere Application Server.
O WebSphere Application Server Network Deployment Versão 6.0.2 e superior pode ser configurado para permitir que o WebSphere eXtreme
Scale execute failover muito rapidamente. O tempo de failover padrão para
falhas "hard" é de aproximadamente 200 segundos. Uma falha de disco rígido é um travamento de computador ou de um servidor físico, uma desconexão de cabo de rede ou um erro do sistema operacional.
As falhas causadas por travamentos de processo ou por falhas de software
normalmente executam failover em menos de um segundo. A detecção de falha para falhas "soft" ocorre quando os soquetes de
rede a partir de um processo inativo são fechados automaticamente pelo sistema operacional
para o servidor que hospeda o processo.
Configuração de
pulsação do grupo principal
O WebSphere eXtreme
Scale que executa um processo do
WebSphere Application Server herda as características de failover a partir das configurações de grupo principal do servidor de aplicativos. As seguintes seções descrevem como definir as configurações de pulsação
do grupo principal para versões diferentes do
WebSphere Application
Server Network Deployment:
- Atualize as configurações do grupo principal para o WebSphere Application Server Network Deployment Versão 6.x e 7.x:
O intervalo de pulsação pode ser especificado em segundos nas
versões do WebSphere Application Server da
Versão 6.0 a Versão 6.1.0.12, ou em milissegundos iniciando na Versão 6.1.0.13. Também é necessário especificar o número de pulsações perdidas. Esse valor indica
quantas pulsações podem estar ausentes antes que um Java Virtual
Machine (JVM) equivalente seja considerado uma falha.
O tempo de detecção de falha "hard"
é, aproximadamente, o produto do intervalo de pulsações e o número de
pulsações ausentes.
Essas propriedades são especificadas usando as propriedades
customizadas no grupo principal usando o console administrativo do WebSphere. Consulte
Propriedades customizadas do grupo principal para obter detalhes da configuração.
Estas propriedades devem ser especificadas para todos os grupos principais
utilizados pelo aplicativo:
- O intervalo de pulsação é especificado usando a propriedade customizada IBM_CS_FD_PERIOD_SEC para segundos ou a propriedade customizada IBM_CS_FD_PERIOD_MILLIS para milissegundos (requer a Versão 6.1.0.13 ou posterior).
- O número de pulsações ausentes é especificado usando a propriedade
customizada IBM_CS_FD_CONSECUTIVE_MISSED.
O valor padrão para a propriedade IBM_CS_FD_PERIOD_SEC é 20 e para a propriedade IBM_CS_FD_CONSECUTIVE_MISSED é 10. Se a propriedade
IBM_CS_FD_PERIOD_MILLIS for especificada, ela substituirá qualquer conjunto
de propriedades customizadas IBM_CS_FD_PERIOD_SEC. Os valores destas propriedades são valores de número inteiro positivo.
Use as seguintes configurações para alcançar
um tempo de detecção de falha de 1500 milissegundos para os servidores
WebSphere Application Server Network Deployment Versão 6.x:
- Configure IBM_CS_FD_PERIOD_MILLIS = 750 (WebSphere Application Server Network Deployment V6.1.0.13 e superior)
- Configure IBM_CS_FD_CONSECUTIVE_MISSED = 2
Atualize as configurações do grupo principal para o WebSphere Application Server Network Deployment Versão 7.0:
O WebSphere Application Server Network Deployment Versão 7.0 fornece duas configurações de grupo principal que podem ser ajustadas para aumentar
ou diminuir a detecção de failover:
- Período de transmissão de pulsação. O padrão é 30000 milissegundos.
- Período de tempo limite de pulsação. O padrão é 180000 milissegundos.
Para obter mais detalhes sobre como alterar essas configurações, consulte o Centro de Informações do WebSphere Application Server Network Deployment: Configurações de Falha e Detecção de Descoberta.
Use as seguintes configurações para alcançar
um tempo de detecção de falha de 1500 milissegundos para os servidores WebSphere Application Server Network Deployment Versão 7:
- Configure o período de transmissão de pulsação para 750 milissegundos.
- Configure o tempo limite da pulsação para 1500 milissegundos.
O que Fazer Depois
Quando estas configurações são modificadas para fornecer tempos de failover
curtos, há alguns problemas de ajuste de sistema a considerar. Primeiro, Java não é um ambiente em tempo real.
É possível que os encadeamentos sejam
atrasados se a JVM
estiver experimentando longos tempos de coleta de lixo. Os encadeamentos também podem ser atrasados se a
máquina que hospeda o JVM estiver
sobrecarregada (devido ao próprio JVM ou
outros processos que são executados na máquina). Se os encadeamentos forem atrasados,
as pulsações talvez não sejam enviadas a tempo. No pior dos casos, elas podem ser atrasadas
pelo tempo necessário de failover. Se os encadeamentos forem atrasados,
ocorrerão falsas detecções de falhas. O sistema deve ser ativado e dimensionado para
garantir que falsas detecções de falhas não aconteçam na produção.
O teste de carregamento adequado é
a melhor maneira de garantir isto.
Nota: A versão atual do
eXtreme Scale suporta o WebSphere Real
Time.