Puede buscar los siguientes problemas cuando la gestión de salud no funciona, o bien no funciona del modo que espera.
Buscar los archivos de anotaciones cronológicas correctos
El controlador de salud es un recurso distribuido que está gestionado por el gestor de alta disponibilidad (HA).
Existe en todos los procesos de agente de nodo y gestor de despliegue, y se activa en uno
de estos procesos. Si un proceso falla, el controlador se activará en otro proceso de
gestor de despliegue o agente de nodo.
Para determinar dónde se está ejecutando el controlador de salud, pulse Operaciones de
tiempo de ejecución > Extended Deployment > Componentes centrales en la
consola administrativa. Se mostrará la ubicación y el estado de estabilidad del
controlador de salud.
El asesor de rendimiento está habilitado con la política de salud de fuga de memoria predeterminada.
La política de salud de fuga de memoria predeterminada utiliza la funcionalidad del asesor de rendimiento, así que el asesor de rendimiento está habilitado cuando esta política tiene miembros asignados. Para inhabilitar el asesor de rendimiento, debe eliminar esta política de salud o restringir la pertenencia de la política de salud. Para impedir un uso futuro de la política de salud, considere conservar la política de pérdida de memoria predeterminada, pero eliminar todos los miembros. Para cambiar los miembros, pulse Políticas operativas > Políticas de salud > pérdida_memoria_predeterminada.
Puede editar las pertenencias de política de salud añadiendo y eliminando miembros específicos de la política.
Valores del controlador de salud
En la siguiente lista se muestran problemas encontrados como resultado de los valores del controlador de salud:
- El controlador de salud está inhabilitado
- Verifique el valor en la consola administrativa pulsando Políticas
operativas > Controladores autónomos > Controlador de salud y seleccione las
pestañas Configuración y Tiempo de configuración.
De forma predeterminada el controlador de salud está habilitado.
- Los reinicios no están permitidos en este momento
- Compruebe las horas en que está prohibido el reinicio en la consola de
administración; para ello, pulse Políticas operativas > Controladores autónomos >
Controlador de salud y seleccione el campo Horas de reinicio prohibido. De forma predeterminada, no hay horas prohibidas.
- Reinicio inmediatamente después del reinicio anterior
- Para comprobar el intervalo de reinicio mínimo en la consola administrativa,
pulse Políticas operativas > Controladores autónomos > Controlador de
salud y modifique el campo Intervalo de reinicio mínimo.
De forma predeterminada no hay definido ningún intervalo mínimo.
- El ciclo de control es demasiado largo
- Para comprobar la longitud del ciclo de control en la consola administrativa,
pulse Políticas operativas > Controladores autónomos > Controlador de
salud y ajuste el valor si es necesario. El controlador de salud comprueba las violaciones de política periódicamente. Si la longitud de ciclo de control es demasiado larga, es posible que los servidores no se reinicien con la rapidez suficiente.
- El servidor se ha reiniciado X veces consecutivas y la condición de salud
continúa infringiéndose
En este caso
X indica el parámetro de número máximo de reinicios consecutivos del controlador de salud.
El controlador de salud concluye que los reinicios no están solucionando el problema y
los inhabilita para el servidor.
El mensaje siguiente aparece en el archivo de anotaciones cronológicas:
WXDH0011W: El servidor nombre_servidor ha superado el máximo de
anomalías de verificación: inhabilitando reinicios
El controlador de
salud continuará supervisando el servidor y visualizará mensajes en las anotaciones
cronológicas, si se infringe la política de salud:
WXDH0012W: El servidor nombre_servidor con reinicios inhabilitados no ha podido comprobar la salud.
Puede habilitar reinicios para el servidor llevando a cabo alguna de las siguientes acciones:
Valores de políticas de salud
A continuación se muestran problemas encontrados como resultado de los valores del controlador de salud:
- El servidor no forma parte de una política de salud
- Compruebe en la consola administrativa que los miembros de la política de salud
se pueden aplicar al servidor pulsando Políticas operativas > Políticas de
salud.
- La modalidad de reacción de una política que contiene el servidor es
supervisada
- Compruebe la consola administrativa pulsando Operaciones de tiempo de
ejecución > Gestión de tareas > Tareas de tiempo de ejecución para buscar
solicitudes de aprobación para una acción de reinicio cuando la política está en
modalidad Supervisada. Los servidores se reinician automáticamente cuando se establece
Automático como la modalidad de reacción. El mensaje siguiente se escribe en el archivo de anotaciones para la condición supervisada:
WXDH0024I: El servidor nombre_servidor ha violado la condición de salud política de salud, la modalidad de reacción es supervisada.
- El servidor es miembro de un clúster estático y es el único miembro del clúster
que está en ejecución
- La política de salud no concluye todos los miembros de un clúster a la vez.
Si un clúster tiene un miembro de clúster o un miembro de clúster está en ejecución, éste no se reiniciará.
- El servidor es miembro de un clúster dinámico, el número de instancias en
ejecución no sobrepasa el valor mínimo y el controlador de ubicación está
inhabilitado
- Seleccione el número mínimo de instancias necesarias para el clúster
dinámico pulsando Servidores > Clústeres dinámicos en la consola
administrativa. En este caso, la gestión de salud trata el clúster dinámico como un clúster estático, utilizando el parámetro de número mínimo de instancias.
- El controlador de salud no ha recibido la política
- El controlador de salud no se ejecuta en el gestor de despliegue donde se
crean las políticas de salud. Si el gestor de despliegue se reinicia después de reiniciar
el controlador de salud, es posible que el controlador de salud no tenga la nueva
política.
Para evitar este problema, siga estos pasos:
- Inhabilite el controlador de salud. En la consola administrativa, pulse
Políticas operativas > Gestores autónomos > Controlador de salud.
- Sincronice los repositorios de configuración con los nodos de programa de fondo. En
la consola administrativa, pulse Administración del sistema > Nodos.
Seleccione los nodos que desee sincronizar y pulse Sincronizar.
- Reinicie el controlador de salud. En la consola administrativa, pulse
Políticas operativas > Gestores autónomos > Controlador de salud.
- Sincronice los repositorios de configuración con los nodos de programa de fondo. En
la consola administrativa, pulse Administración del sistema > Nodos.
Seleccione los nodos que desee sincronizar y pulse Sincronizar.
Interacciones del controlador de ubicación de aplicaciones
La siguiente lista contiene problemas encontrados como resultado de las interacciones de la gestión de salud y del controlador de ubicación de aplicaciones.
- El servidor es un miembro de un clúster dinámico pero el controlador de
ubicación no se puede contactar
- Para los miembros del clúster dinámico, la supervisión de salud comprueba el controlador de ubicación de aplicaciones para determinar
si un servidor se puede reiniciar. Si el controlador de ubicación de aplicaciones está habilitado, pero no se puede contactar, se visualiza el mensaje siguiente en el registro:
WXDH1018E: No ha sido posible contactar con el controlador de posición
Verificar que el controlador de ubicación se está ejecutando.
Para
determinar dónde se está ejecutando el controlador de salud, pulse Operaciones de
tiempo de ejecución > Extended Deployment > Componentes centrales en la
consola administrativa. Se mostrará la ubicación y el estado de estabilidad del
controlador de salud. El controlador de salud anota mensajes en el agente de nodo o el
gestor de despliegue indicado por la ubicación actual.
- El servidor es un miembro de un clúster dinámico, el controlador de ubicación se
está ejecutando y el controlador de ubicación indica a la gestión de salud que no
reinicie el servidor
- El controlador de ubicación puede requerir que la instancia del servidor se mantenga en ejecución.
- El servidor se detiene, pero no se inicia.
- En un clúster dinámico, pueden haber varias formas de reinicio:
- Reinicio local (se detiene el servidor, se inicia el servidor).
- Inicio de una instancia de servidor en otro nodo y detención del anómalo.
- Detención sólo del servidor anómalo, dando por supuesto que las instancias de aplicación restantes pueden satisfacer la demanda.
El controlador de ubicación determina de qué forma se realiza un reinicio y, si es necesario, dónde se iniciará la nueva instancia. Después de realizar un reinicio en un clúster dinámico, la gestión de salud emite una solicitud al controlador de ubicación para volver a calcular su ubicación.
Problemas del sensor
En la siguiente lista se muestran
problemas encontrados como resultado de las interacciones de la gestión de salud y los valores de los
miembros del grupo de nodos:
- No se reciben datos del sensor para el servidor.
- La gestión de salud no puede detectar una violación de política si no recibe datos de los sensores que requiere la política. Si los datos del sensor no se reciben durante el ciclo de control, la gestión de salud imprime el siguiente mensaje en el archivo de anotaciones:
WXDH3001E: No se han recibido datos del sensor durante el ciclo de control del servidor nombre_servidor para la clase de salud política_salud.
Para las condiciones de tiempo de respuesta, la gestión de salud recibe datos del direccionador On demand (ODR).
No se generan datos para estas condiciones hasta que se envíen solicitudes mediante ODR.