[AIX Solaris HP-UX Linux Windows][z/OS]

Intelligent Management: resolución de problemas de gestión de salud

Puede buscar los siguientes problemas cuando la gestión de salud no funciona, o bien no funciona del modo que espera.

Buscar los archivos de anotaciones cronológicas correctos

El controlador de salud es un recurso distribuido que está gestionado por el gestor de alta disponibilidad (HA). Existe en todos los procesos de agente de nodo y gestor de despliegue, y se activa en uno de estos procesos. Si un proceso falla, el controlador se activará en otro proceso de gestor de despliegue o agente de nodo.

Para determinar dónde se está ejecutando el controlador de salud, pulse Operaciones de tiempo de ejecución > Estabilidad de componente > Componentes centrales en la consola administrativa. Se mostrará la ubicación y el estado de estabilidad del controlador de salud.

El asesor de rendimiento está habilitado con la política de salud de fuga de memoria predeterminada.

La política de salud de fuga de memoria predefinida utiliza la función del asesor de rendimiento, así que el asesor de rendimiento está habilitado cuando esta política tiene miembros asignados. Para inhabilitar el asesor de rendimiento, elimine esta política de salud o restrinja la pertenencia de la política de salud. Para impedir un uso futuro de la política de salud, conserve la política de pérdida de memoria, pero elimine todos los miembros. Para cambiar los miembros, pulse Políticas operativas > Políticas de salud > política_pérdida_memoria. Puede editar las pertenencias de política de salud añadiendo y eliminando miembros específicos.

Valores del controlador de salud

En la siguiente lista se muestran problemas encontrados como resultado de los valores del controlador de salud:
El controlador de salud está inhabilitado
Para verificar el valor en la consola administrativa, pulse Políticas operativas > Gestores autónomos > Controlador de salud y seleccione las pestañas Configuración y Tiempo de ejecución. De forma predeterminada el controlador de salud está habilitado.
Los reinicios no están permitidos en este momento
Para comprobar las horas en que está prohibido el reinicio en la consola de administración, pulse Políticas operativas > Gestores autónomos > Controlador de salud y seleccione el campo Horas de reinicio prohibido. De forma predeterminada, no hay valores de tiempo prohibidos.
Reinicio inmediatamente después del reinicio anterior
Para comprobar el intervalo de reinicio mínimo en la consola administrativa, pulse Políticas operativas > Gestores autónomos > Controlador de salud y modifique el campo Intervalo de reinicio mínimo. De forma predeterminada no hay definido ningún intervalo mínimo.
El ciclo de control es demasiado largo
Para comprobar la longitud del ciclo de control en la consola administrativa, pulse Políticas operativas > Gestores autónomos > Controlador de salud y ajuste el valor si es necesario. El controlador de salud comprueba las violaciones de política periódicamente. Si la longitud de ciclo de control es demasiado larga, es posible que los servidores no se reinicien con la rapidez suficiente.
El servidor se ha reiniciado X veces consecutivas y la condición de salud continúa infringiéndose.
En este caso X indica el parámetro de número máximo de reinicios consecutivos del controlador de salud. El controlador de salud concluye que los reinicios no están solucionando el problema y los inhabilita para el servidor. El mensaje siguiente aparece en el archivo de anotaciones cronológicas:
WXDH0011W: El servidor nombre_servidor ha superado el máximo de anomalías de verificación: inhabilitando reinicios. 
El controlador de salud continuará supervisando el servidor y visualizará mensajes en las anotaciones cronológicas, si se infringe la política de salud:
WXDH0012W: El servidor nombre_servidor con reinicios inhabilitados no ha podido comprobar la salud.
Puede habilitar reinicios para el servidor llevando a cabo alguna de las siguientes acciones:
  • Inhabilitar y habilitar el controlador de salud.
  • Ajustar el valor de número máximo de reinicios consecutivos del controlador.
  • Ejecutar el siguiente mandato desde el indicador de mandatos:
    wsadmin -profile HmmControllerProcs.jacl enableServer nombre_servidor
    Este script está disponible en el directorio <raíz_servidor_aplicaciones>\bin en el agente de nodo o en los nodos del gestor de despliegue. Este script requiere un gestor de despliegue en ejecución.

Valores de políticas de salud

A continuación se muestran problemas encontrados como resultado de los valores del controlador de salud:
El servidor no forma parte de una política de salud
Para comprobar en la consola administrativa que los miembros de la política de salud se pueden aplicar al servidor, pulse Políticas operativas > Políticas de salud.
La modalidad de reacción de una política que contiene el servidor es una modalidad supervisada.
Para comprobar la consola administrativa, pulse Administración del sistema > Gestión de tareas > Tareas de tiempo de ejecución. Busque solicitudes de aprobación para una acción de reinicio de una política en modalidad Supervisada. Los servidores se reinician automáticamente cuando se establece Automáticocomo la modalidad de reacción. El mensaje siguiente se escribe en el archivo de anotaciones para la condición supervisada:
WXDH0024I: El servidor nombre_servidor ha violado la condición de salud política de salud,
la modalidad de reacción es la modalidad supervisada.
El servidor es miembro de un clúster estático, y es el único miembro del clúster que está en ejecución
La política de salud no concluye todos los miembros de un clúster a la vez. Si un clúster tiene un miembro de clúster o un miembro de clúster está en ejecución, éste no se reiniciará.
El servidor es un miembro de un clúster dinámico. El número de instancias en ejecución no sobrepasa el valor mínimo y el controlador de ubicación está inhabilitado.
Para comprobar el número mínimo de instancias necesarias para el clúster dinámico, pulse Servidores > Clústeres > Clústeres dinámicos en la consola administrativa. En este caso, la gestión de salud trata el clúster dinámico como un clúster estático, utilizando el número mínimo de parámetros de instancias.
El controlador de salud no ha recibido la política
El controlador de salud no se ejecuta en el gestor de despliegue donde se crean las políticas de salud. Si el gestor de despliegue se reinicia después de reiniciar el controlador de salud, es posible que el controlador de salud no tenga la nueva política.
Para resolver este problema, siga estos pasos:
  1. Inhabilite el controlador de salud. En la consola administrativa, pulse Políticas operativas > Gestores autónomos > Controlador de salud.
  2. Sincronice los repositorios de configuración con los nodos de programa de fondo. En la consola administrativa, pulse Administración del sistema > Nodos. Seleccione los nodos que se van a sincronizar y pulse Sincronizar.
  3. Reinicie el controlador de salud. En la consola administrativa, pulse Políticas operativas > Gestores autónomos > Controlador de salud.
  4. Sincronice los repositorios de configuración con los nodos de programa de fondo. En la consola administrativa, pulse Administración del sistema > Nodos. Seleccione los nodos que se van a sincronizar y pulse Sincronizar.

Interacciones del controlador de ubicación de aplicaciones

La siguiente lista contiene problemas desencadenados por las interacciones de la gestión de salud y del controlador de ubicación de aplicaciones.

El servidor es un miembro de un clúster dinámico pero el controlador de ubicación no se puede contactar
Para los miembros del clúster dinámico, la supervisión de salud comprueba el controlador de ubicación de aplicaciones para determinar si un servidor se puede reiniciar. Si el controlador de ubicación de aplicaciones está habilitado, pero no se puede contactar, se visualiza el mensaje siguiente en el registro:
WXDH1018E: No ha sido posible contactar con el controlador de posición
Verificar que el controlador de ubicación se está ejecutando. Para determinar dónde se está ejecutando el controlador de salud, pulse Operaciones de tiempo de ejecución > Estabilidad de componente > Componentes centrales en la consola administrativa. Se mostrará la ubicación y el estado de estabilidad del controlador de salud. El controlador de salud anota mensajes en el agente de nodo o el gestor de despliegue, que se indica mediante la ubicación actual.
El servidor se detiene, pero no se inicia.
En un clúster dinámico, pueden haber varias formas de reinicio:
  • Reinicio local (se detiene el servidor, se inicia el servidor).
    Nota: Esto siempre se produce cuando un clúster dinámico está en modalidad manual.
  • Inicio de una instancia de servidor en otro nodo y detención del anómalo.
  • Detención sólo del servidor anómalo, dando por supuesto que las instancias de aplicación restantes pueden satisfacer la demanda.

Problemas del sensor

En la siguiente lista se muestran problemas relativos a los valores de la gestión de salud y los valores de los miembros del grupo de nodos:

No se reciben datos del sensor para el servidor.
La gestión de salud no puede detectar una violación de política si no recibe datos de los sensores que requiere la política. Si los datos del sensor no se reciben durante el ciclo de control, la gestión de salud imprime el siguiente mensaje en el archivo de anotaciones:
WXDH3001E: No se han recibido datos del sensor durante el ciclo de control del servidor nombre_servidor para
clase de salud política_salud. 
Para las condiciones de tiempo de respuesta, la gestión de salud recibe datos del direccionador On demand (ODR). No se generan datos para estas condiciones hasta que se envíen solicitudes mediante ODR.

Estado de gestión de tareas

A veces un estado de tarea Reiniciar acción termina como Anómalo o Desconocido. Este caso se produce cuando el servidor no se detiene durante el periodo de tiempo que se asigna de forma predeterminada, o cuando la tarea excede el tiempo de espera. Utilice la propiedad a nivel de célula siguiente para ajustar el tiempo de espera del entorno: HMM.StopServerTimeout. El valor se expresa en milisegundos, y el valor predeterminado es 10000. Esta propiedad permite a la gestión de salud ampliar el tiempo de espera para las notificaciones de detención del servidor que se reciben de la configuración bajo demanda.

Para aumentar el tiempo de espera del entorno, vaya a Políticas operativas > Gestores autónomos > Controlador de salud > Tiempo de espera de reinicio. El valor predeterminado es de 5 minutos. La tarea de reinicio se inicia una vez transcurrido el doble de tiempo especificado, permitiendo que el servidor se detenga y se inicie.


Icon that indicates the type of topic Reference topic



Timestamp icon Last updated: last_date
http://www14.software.ibm.com/webapp/wsbroker/redirect?version=cord&product=was-nd-mp&topic=rwve_odhealthfail
File name: rwve_odhealthfail.html