En este tema se describen algunas cuestiones que se deben examinar cuando la gestión de salud no funciona o no funciona del modo previsto.
Buscar los archivos de anotaciones cronológicas correctos
El controlador de gestión de salud se ejecutan como parte del agente de nodos de los nodos del gestor no de despliegue. Puede utilizar la función de topología de tiempo de ejecución de la consola administrativa para localizar la instancia de controlador de salud activa. Pulse Operaciones de tiempo de ejecución > Topología de tiempo de ejecución y busque el icono con la cruz roja en el panel Topología de tiempo de ejecución. Si los grupos de nodos están configurados, selecciónelos y los nodos no asignados en el segundo menú. Los mensajes de anotaciones cronológicas de gestión de saluda aparecen en el archivo de anotaciones cronológicas del nodo con el icono de la cruza roja.
Valores del controlador de salud
En la siguiente lista se muestran problemas encontrados como resultado de los valores del controlador de salud:
- El controlador de gestión de salud está inhabilitado
- Verifique el valor en la consola administrativa pulsando Políticas operativas > Controladores autónomos > Controlador de salud y seleccione las pestañas Configuración y Tiempo de configuración.
Por omisión el controlador de gestión de salud está habilitado.
- No hay un icono de controlador de salud en el panel de topología de tiempo de ejecución.
- Determine si el controlador de gestión de salud está ejecutándose ejecutando el script
wsadmin checkHmmLocation.jacl, que está situado en el directorio raíz_instalación/bin de nodos de gestor no de despliegue. Este script visualiza la ubicación actual del controlador, si está ejecutándose. Si desea más información, consulte el apartado Localización del controlador de gestión de salud con scripts. Además, pruebe la opción Forzar actualización de datos en la página de topología de tiempo de ejecución para que se visualice el icono de controlador de salud.
- Los reinicios no están permitidos en este momento.
- Compruebe las horas en que está prohibido el reinicio en la consola de administración; para ello, pulse Políticas operativas > Controladores autónomos > Controlador de salud y seleccione el campo
Horas de reinicio prohibido. Por omisión, no hay horas prohibidas.
- Reinicio inmediatamente después del reinicio anterior.
- Compruebe el intervalo de reinicio mínimo en la consola administrativa; para ello, pulse Políticas operativas > Controladores autónomos > Controlador de salud y seleccione el campo Intervalo de reinicio mínimo.
Por omisión no hay definido ningún intervalo mínimo.
- Ciclo de control demasiado largo.
- Seleccione el valor Longitud del ciclo de control en la consola administrativa seleccionando Políticas operativas > Controladores autónomos > Controlador de salud y ajústelo si es necesario. El controlador de salud comprueba las violaciones de política periódicamente. Si la longitud de ciclo de control es demasiado larga, es posible que los servidores no se reinicien con la rapidez suficiente.
- El servidor se ha reiniciado X veces consecutivas y la condición de salud continúa infringiéndose.
En este caso
X indica el parámetro de número máximo de reinicios consecutivos del controlador de salud.
El controlador de gestión de salud concluye que los reinicios no están solucionando el problema y los inhabilita para el servidor. El mensaje siguiente aparece en el archivo de anotaciones cronológicas:
WXDH0011W: El servidor nombre_servidor ha superado el máximo de anomalías de verificación: inhabilitando reinicios
El controlador de gestión de salud continuará supervisando el servidor y visualizará mensajes en las anotaciones cronológicas, si se infringe la política de salud:
WXDH0012W: El servidor nombre_servidor con reinicios inhabilitados no ha podido comprobar la salud.
Puede habilitar reinicios para el servidor llevando a cabo alguna de las siguientes acciones:
Valores de políticas de salud
A continuación se muestran problemas encontrados como resultado de los valores del controlador de salud:
- El servidor no forma parte de una política de salud.
- Compruebe en la consola administrativa que los miembros de la política de salud se pueden aplicar al servidor pulsando Políticas operativas > Políticas de salud.
- La modalidad de reacción de una política que contiene el servidor es supervisada.
- Compruebe la consola administrativa pulsando Operaciones de tiempo de ejecución >
Gestión de tareas > Tareas de tiempo de ejecución para buscar peticiones de aprobación para una acción de reinicio cuando la política está en modalidad Supervisada. Los servidores se reinician automáticamente cuando se establece
Automático como la modalidad de reacción. El mensaje siguiente se escribe en el archivo de anotaciones para la condición supervisada:
WXDH0024I: El servidor nombre_servidor ha violado la condición de salud política de salud, la modalidad de reacción es supervisada.
- El servidor es miembro de un clúster estático y es el único miembro del clúster que está en ejecución.
- La política de salud no concluye todos los miembros de un clúster a la vez.
Si un clúster tiene un miembro de clúster o un miembro de clúster está en ejecución, éste no se reiniciará.
- El servidor es miembro de un clúster dinámico, el número de instancias en ejecución no sobrepasa el mínimo y el controlador de ubicación está inhabilitado.
- Seleccione el número mínimo de instancias necesarias para el clúster dinámico pulsando
Servidores > Clústeres dinámicos en la consola administrativa. En este caso, la gestión de salud trata el clúster dinámico como un clúster estático, utilizando el parámetro de número mínimo de instancias.
- El controlador de gestión de salud no ha recibido la política.
- El controlador de gestión de salud no se ejecuta en el gestor de despliegue donde se crean las políticas de salud. Si el gestor de despliegue se reinicia después de reiniciar el controlador de gestión de salud, es posible que el controlador de gestión de salud no tenga la nueva política.
Atenúe este problema realizando lo siguiente:
- Inhabilitando el controlador de gestión de salud mediante el recuadro de selección Habilitar supervisión de salud en la consola administrativa.
- Sincronizando los depósitos de configuración con los nodos de programa de fondo.
En la consola administrativa, pulse Administración del sistema > Nodos, seleccione los nodos que desea sincronizar y pulse Sincronizar.
- Reiniciando el controlador de gestión de salud mediante el recuadro de selección Habilitar supervisión de salud de la consola administrativa.
- Sincronizando de nuevo los depósitos de configuración con los nodos de programa de fondo.
Interacciones del controlador de ubicación
En la siguiente lista se muestran
problemas encontrados como resultado de las interacciones de la gestión de salud y el controlador de ubicación.
- El servidor es un miembro de un clúster dinámico pero el controlador de ubicación no se puede contactar.
- Para los miembros del clúster dinámico, la supervisión de la salud comprueba el controlador de ubicación para determinar si se puede reiniciar un servidor. Si el controlador de ubicación está habilitado, pero no se puede contactar, aparecerá el mensaje siguiente en el archivo de anotaciones cronológicas:
WXDH1018E: No ha sido posible contactar con el controlador de posición: {0}
Verificar que el controlador de ubicación se está ejecutando. Puede localizar el controlador de ubicación en uno de los nodos que aparecen en el panel Topología de tiempo de ejecución o utilizando el script
checkPlacementLocation.jacl.
- El servidor es un miembro de un clúster dinámico, el controlador de ubicación se está ejecutando y el controlador de ubicación indica a la gestión de salud que no reinicie el servidor.
- El controlador de ubicación puede requerir que la instancia del servidor se mantenga en ejecución.
- El servidor se detiene, pero no se inicia.
- En un clúster dinámico, pueden haber varias formas de reinicio:
- Reinicio local (se detiene el servidor, se inicia el servidor).
- Inicio de una instancia de servidor en otro nodo y detención del anómalo.
- Detención sólo del servidor anómalo, dando por supuesto que las instancias de aplicación restantes pueden satisfacer la demanda.
El controlador de ubicación determina de qué forma se realiza un reinicio y, si es necesario, dónde se iniciará la nueva instancia. Después de realizar un reinicio en un clúster dinámico, la gestión de salud emite una petición al controlador de ubicación para volver a calcular su ubicación.
Valores de los miembros del grupo de nodos
En la siguiente lista se muestran
problemas encontrados como resultado de las interacciones de la gestión de salud y los valores de los
miembros del grupo de nodos:
- El servidor está en un nodo que está en modalidad de mantenimiento.
- La gestión de salud no reinicia un servidor en un nodo en modalidad de mantenimiento. Puede sacar un nodo de la modalidad de mantenimiento pulsando Administración del sistema > Nodos > seleccione un nodo > No establecer mantenimiento.
Problemas del sensor
En la siguiente lista se muestran
problemas encontrados como resultado de las interacciones de la gestión de salud y los valores de los
miembros del grupo de nodos:
- No se reciben datos del sensor para el servidor.
- La gestión de salud no puede detectar una violación de política si no recibe datos de los sensores que requiere la política. Si los datos del sensor no se reciben durante el ciclo de control, la gestión de salud imprime el siguiente mensaje en el archivo de anotaciones:
WXDH3001E: No se han recibido datos del sensor durante el ciclo de control del servidor nombre_servidor para la clase de salud política_salud.
Para las condiciones de tiempo de respuesta, la gestión de salud recibe datos del direccionador On demand (ODR).
No se generan datos para estas condiciones hasta que se envíen peticiones mediante ODR.