Conseils d'identification et de résolution des incidents relatifs aux environnements de haute disponibilité

Consultez les rubriques suivantes si vous rencontrez un problème avec votre environnement de haute disponibilité.

[AIX Solaris HP-UX Linux Windows][z/OS]

Le message HMGR0218I ne s'affiche pas après le démarrage d'une machine virtuelle Java

Dans un environnement de haute disponibilité correctement configuré, un gestionnaire de haute disponibilité peut réévaluer l'environnement qu'il gère et accepter les nouveaux composants à mesure qu'ils sont ajoutés à l'environnement. Par exemple, lorsqu'une machine virtuelle Java™ (JVM) est ajoutée à l'infrastructure, un processus de reconnaissance commence. Au cours du démarrage, la JVM tente de prendre contact avec les autres membres du groupe central. Si une autre machine virtuelle Java en cours d'exécution est détectée, un processus de jonction est initialisé avec cette JVM et détermine si elle peut ou non être jointe au groupe central. Si la nouvelle JVM est acceptée comme membre du groupe central, toutes les JVM, y compris la nouvelle, consignent le message HMGR0218I. Ce message s'affiche également sur la console d'administration.

Le message HMGR0218I indique combien de serveurs d'applications contenus dans le groupe central sont actuellement en ligne. Si ce message ne s'affiche pas après le démarrage d'une machine virtuelle Java, cela signifie qu'un incident de configuration ou de communication s'est produit. Pour le corriger, vérifiez que le serveur d'applications est en cours d'exécution dans une configuration en cours, soit en utilisant le gestionnaire de déploiement pour indiquer à l'agent de noeud de se synchroniser, soit en utilisant la commande syncNode pour effectuer la synchronisation manuellement. Si la JVM ne parvient toujours pas à effectuer la jonction avec le groupe central, il s'agit d'un incident de configuration du réseau.

[IBM i]

Le message HMGR0218I ne s'affiche pas après le démarrage d'un serveur

Dans un environnement de haute disponibilité correctement configuré, un gestionnaire de haute disponibilité peut réévaluer l'environnement qu'il gère et accepter les nouveaux composants à mesure qu'ils sont ajoutés à l'environnement. Par exemple, lorsqu'une machine virtuelle Java est ajoutée à l'infrastructure, un processus de reconnaissance est lancé. Au cours du démarrage, le serveur tente de prendre contact avec les autres membres du groupe central. Si un autre serveur en cours d'exécution est détecté, un processus de jonction est initialisé avec ce serveur et détermine s'il peut ou non être joint au groupe central. Si le nouveau serveur est accepté comme membre du groupe central, tous les serveurs, y compris le nouveau, consignent le message HMGR0218I. Ce message s'affiche également sur la console d'administration.

Le message HMGR0218I indique combien de serveurs d'applications contenus dans le groupe central sont actuellement en ligne. Si ce message ne s'affiche pas après le démarrage d'un serveur, cela signifie qu'un incident de configuration ou de communication s'est produit. Pour le corriger, vérifiez que le serveur d'applications est en cours d'exécution dans une configuration en cours, soit en utilisant le gestionnaire de déploiement pour indiquer à l'agent de noeud de se synchroniser, soit en utilisant la commande syncNode pour effectuer la synchronisation manuellement. Si le serveur ne parvient toujours pas à effectuer la jonction avec le groupe central, il s'agit d'un incident de configuration du réseau.

Le message HMGR0123I s'affiche dans le fichier journal système

Le message HMGR0123I peut s'afficher dans le fichier journal système si le statut des membres du groupe central est modifié en même temps que le coordinateur actif. Par exemple, ce message peut être émis lorsqu'un membre du groupe central redémarre et devient le coordinateur actif.

En général, ce message d'information n'indique pas un problème grave. Même si le message s'affiche dans le fichier journal système, le nouveau coordinateur actif reçoit le statut de groupe mis à jour. Si vous voulez réduire les occurrences de ce message, vous devez sélectionner un membre du groupe central qui ne redémarre pas fréquemment comme coordinateur de groupe central favori.

Messages de carence de l'UC dans le fichier journal système

Des messages d'erreur Carence de l'UC détectée sont placés dans le fichier journal système chaque fois que la mémoire physique disponible est insuffisante pour permettre aux unités d'exécution du gestionnaire de haute disponibilité d'avoir une exécution cohérente. Si l'UC passe la majorité de son temps à tenter de charger des processus remplacés, tout en exécutant le travail entrant, un manque d'unité peut se produire. Le gestionnaire de haute disponibilité détecte cette condition et consigne les messages d'erreur vous informant que les unités n'obtiennent pas l'exécution requise.

Pour obtenir des performances optimales et éviter de recevoir de tels messages d'erreur, il est préférable d'allouer au moins 512 Mo de RAM pour chaque processus Java s'exécutant sur une seule machine.

Haute utilisation de l'unité centrale dans une large configuration de cellule lorsque la sécurité est activée

Dans certaines configurations et certains états, le temps passé en reconnaissance est important.
  • Si un grand nombre de processus sont définis dans un groupe central, un grand nombre de connexions doit être proportionnellement défini pour la prise en charge de ces processus.
  • Si un grand nombre de processus inactifs sont définis dans un groupe central, un grand nombre de connexions seront proportionnellement tentées entre chaque intervalle de reconnaissance.
  • Si la sécurité administrative est activée, les connexions DCS sont sécurisée, et l'impact de l'ouverture d'une connexion augmentent considérablement.

Utilisez la page Reconnaissance et détection des incidents de la console d'administration pour augmenter le délai d'attente à l'issu duquel le protocole de reconnaissance recalcule l'ensemble des membres du groupe central non connectés et tente d'ouvrir des connexions à ces membres. L'augmentation du délai entre deux périodes de reconnaissance consécutives diminue le temps UC consacré à la reconnaissance. Pour plus d'informations, voir la rubrique Configuration du protocole de reconnaissance d'un groupe central.

Incidents de signal de présence de haute disponibilité transitoires lorsque la charge de travail est élevée

Lorsque la charge de travail est élevée, des conditions d'incidents de signaux de présence peuvent survenir entre les partenaires de réplication dans une configuration haute disponibilité, même si les deux partenaires de réplication semblent fonctionner correctement.

[Linux]Pour les systèmes d'exploitation Linux, cet incident peut être entraîné par des problèmes de connexion TCP sur le canal de réplication entre les partenaires de réplication. Ces problèmes de connexion surviennent parce que la taille du tampon TCP n'est pas suffisamment importante pour prendre en charge le volume élevé de données de réplication échangées. Pour éviter ces incidents de signaux de présence, il est recommandé de régler les tailles de tampon TCP tel que recommandé dans la section relative aux ajustements du noyau Linux de la rubrique décrivant comment régler les servlets SIP pour Linux.


Icône indiquant le type de rubrique Rubrique de référence



Icône d'horodatage Dernière mise à jour: last_date
http://www14.software.ibm.com/webapp/wsbroker/redirect?version=cord&product=was-nd-mp&topic=rtrb_ha_env_trbl
Nom du fichier : rtrb_ha_env_trbl.html