La présente rubrique décrit les incidents à identifier lorsque Health Management Controller ne fonctionne pas correctement ou ne s'exécute pas comme vous le souhaitiez.
Recherche des journaux appropriés
Health Management Controller s'exécute au sein de l'agent de noeud, sur les noeuds qui ne disposent pas de gestionnaire de déploiement. Vous pouvez utiliser la fonction Topologie d'exécution de la console d'administration pour rechercher l'instance active du contrôleur de santé. Cliquez
sur Opérations d'exécution > Topologie d'exécution et
recherchez l'icône représentant une croix rouge dans le panneau Topologie d'exécution. Si des groupes de noeuds sont configurés, sélectionnez-les ainsi que les noeuds non affectés à partir du second menu.
Les messages de consignation de la gestion de santé apparaissent dans le journal de l'agent de noeud, sur le noeud associé à une icône rouge.
Paramètres du contrôleur de santé
Voici la liste des incidents que vous pouvez rencontrer lors de la définition des paramètres du contrôleur de santé :
- Health Management Controller est désactivé
- Vérifiez le paramètre dans la console d'administration en cliquant sur Stratégies d'exploitation > Contrôleurs autonomes > Contrôleur de santé et sélectionnez les onglets Configuration et Exécution. Le composant Health Management Controller est activé par défaut.
- L'icône du contrôleur de santé n'apparaît pas dans le panneau Topologie d'exécution
- Déterminez si Health Management Controller est en cours d'exécution en lançant le script wsadmin checkHmmLocation.jacl, situé dans le répertoire racine_installation/bin des noeuds. Ce script indique l'emplacement en cours du contrôleur si celui-ci est actif. Pour plus d'informations, voir Localisation du contrôleur de gestion de santé à l'aide de scripts.
Essayez l'option Forcer la mise à jour des données sur la page de topologie d'exécution pour afficher l'icône du contrôleur de santé et y accéder.
- Les redémarrages ne sont pas autorisés pour le moment
- Vérifiez les heures de redémarrage interdites dans la console d'administration en cliquant sur Stratégies d'exploitation > Contrôleurs autonomes > Contrôleur de santé et en vérifiant la zone Heures de redémarrage interdites. Par défaut, aucune heure interdite n'est définie.
- Redémarrage prématuré après le redémarrage précédent
- Vérifiez l'intervalle de redémarrage minimal dans la console d'administration en cliquant sur Stratégies d'exploitation > Contrôleurs d'autonomes > Contrôleur de santé et en sélectionnant la zone Intervalle minimal entre les redémarrages. Aucun intervalle minimal n'est défini par défaut.
- Cycle de contrôle trop long.
- Vérifiez le paramètre Longueur du cycle de contrôle dans la console d'administration en sélectionnant Stratégies d'exploitation > Contrôleurs autonomes > Contrôleur de santé et réglez-le si nécessaire. Le contrôleur de santé vérifie régulièrement si les stratégies sont respectées.
Si le cycle de contrôle défini est trop long, il est possible que les serveurs ne soient pas redémarrés assez rapidement.
- Le serveur a été redémarré X fois à la suite et la condition de santé n'est toujours pas respectée.
Dans ce cas,
X indique le paramètre de nombre maximal de redémarrages consécutifs du contrôleur de santé. Health Management Controller en conclut que les redémarrages ne permettent pas de résoudre l'incident et désactive l'option pour le serveur.
Le message suivant s'affiche dans le journal :
WXDH0011W: Le nombre maximal d'échecs de vérification a été dépassé pour le serveur nom_serveur : désactivation des redémarrages.
Health Management Controller continue de surveiller le serveur et consigne des messages dans le journal si les stratégies de santé sont violées :
WXDH0012W: La vérification de santé du serveur nom_serveur avec désactivation des redémarrages a échoué.
Vous pouvez autoriser les redémarrages du serveur en effectuant l'une des actions suivantes :
Paramètres de stratégie de santé
Voici la liste des incidents que vous pouvez rencontrer lors de la définition des paramètres de stratégie de santé :
- Le serveur n'est pas inclus dans les stratégies de santé
- Vérifiez que les règles d'adhésion aux stratégies de santé s'appliquent à votre serveur dans la console d'administration en cliquant sur Stratégies d'exploitation > Stratégies de santé.
- Le mode de réaction d'une stratégie applicable au serveur est Supervisé.
- Vérifiez la console d'administration en cliquant sur Opérations d'exécution >
Gestion des tâches > Tâches d'exécution afin de rechercher des demandes d'approbation correspondant à une action de redémarrage pour une stratégie en mode Supervisé. Les serveurs sont redémarrés automatiquement quand vous choisissez Automatique comme mode de réaction. Le message suivant est inscrit dans le journal pour une condition supervisée :
WXDH0024I: Le serveur nom_serveur a violé la condition de santé stratégie de santé, le mode de réaction est supervisé.
- Le serveur est membre d'un cluster statique et le seul membre du cluster en cours d'exécution.
- La stratégie de santé n'arrête pas simultanément tous les membres d'un cluster. Si un cluster ne possède qu'un seul membre ou qu'un seul membre de cluster est en cours d'exécution, il n'est pas redémarré.
- Le serveur est membre d'un cluster dynamique, le nombre d'instances actives ne dépasse pas la valeur minimale et le contrôleur de positionnement est désactivé.
- Vérifiez le nombre minimal d'instances requis pour le cluster dynamique en cliquant sur Serveurs > Clusters dynamiques dans la console d'administration. Dans ce cas, Health Management Controller traite le cluster dynamique comme un cluster statique en utilisant le nombre minimal d'instances défini.
- Health Management Controller n'a pas reçu la stratégie.
- Health Management Controller ne s'exécute pas sur le gestionnaire de déploiement où les stratégies de santé sont créées. Si le gestionnaire de déploiement a été redémarré après le lancement du composant Health Management Controller, il est possible que le composant ne dispose pas de la nouvelle stratégie.
Vous pouvez résoudre cet incident en effectuant les opérations ci-dessous :
- Désactivation du contrôleur de gestion de santé en cochant la case Activer le contrôle de santé dans la console d'administration.
- Synchronisation des référentiels de configuration avec les noeuds dorsaux.
Dans la console d'administration, cliquez sur Administration système > Noeuds, sélectionnez les noeuds à synchroniser et cliquez sur Synchroniser.
- Redémarrage du contrôleur de gestion de santé en cochant la case Activer le contrôle de santé dans la console d'administration.
- Nouvelle synchronisation des référentiels de configuration avec les noeuds dorsaux.
Interactions du contrôleur de positionnement
Voici la liste des incidents que vous pouvez rencontrer lors des interactions du contrôleur HMC et du contrôleur de positionnement :
- Le serveur est membre d'un cluster dynamique mais le contrôleur de positionnement ne peut pas être contacté.
- Pour les membres d'un cluster dynamique, le gestionnaire de santé vérifie avec le contrôleur de positionnement si un serveur peut être redémarré. Si le contrôleur de positionnement est activé mais qu'il ne peut pas être contacté, le message suivant est consigné dans le journal :
WXDH1018E : Impossible de contacter le contrôleur de positionnement : {0}
Vérifiez que le contrôleur de positionnement s'exécute. Vous pouvez localiser le contrôleur de positionnement sur l'un des noeuds affichant le panneau Topologie d'exécution ou en utilisant le script checkPlacementLocation.jacl.
- Le serveur est membre d'un cluster dynamique, le contrôleur de positionnement est en cours d'exécution et demande à la fonction de gestion de santé de ne pas redémarrer le serveur.
- Le contrôleur de positionnement peut demander que l'instance du serveur reste active.
- Le serveur est arrêté mais non démarré.
- Dans un cluster dynamique, la procédure de redémarrage peut prendre plusieurs formes :
- Redémarrage standard (arrêt du serveur et redémarrage du serveur).
- Démarrage de l'instance du serveur sur un autre noeud et arrêt du serveur défaillant.
- Arrêt du serveur défaillant uniquement, en supposant que les autres instances d'application peuvent satisfaire la demande.
Le contrôleur de positionnement détermine sous quelle forme un redémarrage doit être effectué et, si nécessaire, où lancer la nouvelle instance. Après qu'un redémarrage est effectué dans un cluster dynamique, Health Management Controller transmet une demande au contrôleur de positionnement pour recalculer son positionnement.
Paramètres d'appartenance de groupe de noeuds
Voici la liste des incidents que vous pouvez rencontrer lors de la définition d'appartenance de gestion de santé et de groupe de noeuds :
- Le serveur réside sur un noeud qui se trouve en mode maintenance.
- Health Management Controller ne redémarre pas un serveur situé sur un noeud en mode maintenance.
Pour désactiver le mode maintenance pour un noeud précis, cliquez sur Administration du système > Noeuds > sélection d'un noeud > Annuler la définition de la maintenance.
Problèmes liés aux données de détection
Voici la liste des incidents que vous pouvez rencontrer lors de la définition d'appartenance de gestion de santé et de groupe de noeuds :
- Aucune information de détecteur n'est reçue pour le serveur.
- Health Management Controller ne peut pas détecter de violation des stratégies s'il ne reçoit pas les données des détecteurs requis par la stratégie. Si aucune donnée de détecteur n'est reçue lors du cycle de contrôle, la gestion de santé affiche le message de journal suivant :
WXDH3001E: Aucune donnée de détecteur n'a été reçue au cours du cycle de contrôle du serveur nom_serveur pour la classe de santé stratégie de santé.
Pour les conditions liées au temps de réponse, Health Management Controller reçoit les données envoyées par le routeur ODR (On-Demand Router). Aucune donnée n'est générée dans ces situations tant que des demandes ne sont pas envoyées via le routeur ODR.