Tipps zur Fehlerbehebung in Umgebungen mit hoher Verfügbarkeit
Lesen Sie die folgenden Artikel, wenn ein Problem in Ihrer Umgebung mit hoher Verfügbarkeit auftritt.
![[AIX Solaris HP-UX Linux Windows]](../images/dist.gif)
![[z/OS]](../images/ngzos.gif)
Nach dem Start einer JVM wird die Nachricht HMGR0218I nicht angezeigt
In einer ordnungsgemäß konfigurierten Umgebung mit hoher Verfügbarkeit kann ein High Availability Manager die Handhabung und das Management der von ihm verwalteten Umgebung ändern und neu zur Umgebung hinzugefügte Komponenten akzeptieren. Wenn Sie der Infrastruktur beispielsweise eine Java Virtual Machine (JVM) hinzufügen, wird ein Erkennungsprozess gestartet. Während des Starts versucht die JVM, eine Verbindung zu den anderen Membern der Stammgruppe herzustellen. Wenn die JVM eine andere aktive JVM findet, leitet Sie einen Verknüpfungsprozess mit dieser JVM ein, der bestimmt, ob die JVM in die Stammgruppe aufgenommen werden kann. Falls die neue JVM als Member der Stammgruppe akzeptiert wird, protokollieren alle JVMs einschließlich der neuen die Nachricht HMGR0218I. Diese Nachricht wird auch in der Administrationskonsole angezeigt.
Die Nachricht HMGR0218I enthält die Anzahl der Anwendungsserver in der Stammgruppe, die derzeit online sind. Wenn diese Nachricht nach dem Start einer JVM nicht angezeigt wird, liegt entweder ein Konfigurationsfehler oder ein Kommunikationsfehler vor. Zur Behebung dieses Problems müssen Sie sicherstellen, dass der Anwendungsserver in einer aktuellen Konfiguration aktiv ist. Verwenden Sie den Deployment Manager, um den Node Agent anzuweisen, eine Synchronisation durchzuführen, oder führen Sie die Synchronisation mit dem Befehl syncNode manuell durch. Falls die JVM danach immer noch nicht in die Stammgruppe aufgenommen wird, liegt ein Fehler in der Netzkonfiguration vor.
![[IBM i]](../images/iseries.gif)
Nach dem Start einer JVM wird die Nachricht HMGR0218I nicht angezeigt
In einer ordnungsgemäß konfigurierten Umgebung mit hoher Verfügbarkeit kann ein High Availability Manager die Handhabung und das Management der von ihm verwalteten Umgebung ändern und neu zur Umgebung hinzugefügte Komponenten akzeptieren. Wenn Sie der Infrastruktur beispielsweise eine Java Virtual Machine (Server) hinzufügen, wird ein Erkennungsprozess gestartet. Während des Starts versucht der Server, eine Verbindung zu den anderen Membern der Stammgruppe herzustellen. Wenn er einen anderen aktive Server findet, leitet er einen Verknüpfungsprozess mit diesem Server ein, der bestimmt, ob der Server in die Stammgruppe aufgenommen werden kann. Falls der neue Server als Member der Stammgruppe akzeptiert wird, protokollieren alle Server einschließlich der neuen die Nachricht HMGR0218I. Diese Nachricht wird auch in der Administrationskonsole angezeigt.
Die Nachricht HMGR0218I enthält die Anzahl der Anwendungsserver in der Stammgruppe, die derzeit online sind. Wenn diese Nachricht nach dem Start eines Servers nicht angezeigt wird, liegt entweder ein Konfigurationsfehler oder ein Kommunikationsfehler vor. Zur Behebung dieses Problems müssen Sie sicherstellen, dass der Anwendungsserver in einer aktuellen Konfiguration aktiv ist. Verwenden Sie den Deployment Manager, um den Node Agent anzuweisen, eine Synchronisation durchzuführen, oder führen Sie die Synchronisation mit dem Befehl syncNode manuell durch. Falls der Server danach immer noch nicht in die Stammgruppe aufgenommen wird, liegt ein Fehler in der Netzkonfiguration vor.
Nachricht HMGR0123I wird in der Systemprotokolldatei angezeigt
Nachricht HMGR0123I kann in der Systemprotokolldatei erscheinen, wenn der Status der Stammgruppenmember zur selben Zeit geändert wird wie der aktive Koordinator. Möglicherweise wurde ein Stammgruppenmember erneut gestartet und übernahm die Funtion des aktiven Koordinators.
Diese Nachricht weist normalerweise nicht auf ein ernsthaftes Problem hin. Die Nachricht erscheint in der Systemprotokolldatei, der neue aktive Koordinator empfängt den aktualisierten Gruppenstatus. Um zu verhindern, dass diese Nachricht zu häufig angezeigt wird, sollten Sie ein Stammgruppenmember auswählen, das nicht häufig als bevorzugter Stammgruppenkoordinator neu gestartet wird.
Nachrichten zur CPU-Blockierung in der Systemprotokolldatei
Fehlernachrichten vom Typ CPU-Blockierung erkannt werden in der Systemprotokolldatei aufgezeichnet, wenn nicht genügend physischer Hauptspeicher für eine kontinuierliche Ausführung von HA-Manager-Threads verfügbar ist. Wenn die CPU den größten Teil ihrer Zeit versucht, während der Verarbeitung eingehender Anforderungen ausgelagerte Prozesse zu laden, können Threads blockieren. Der High Availability Manager erkennt diese Situation und zeichnet diese Fehlernachrichten auf, um Sie darüber zu informieren, dass die Threads nicht die erforderliche CPU-Zeit erhalten.
Um eine angemessene Leistung zu erzielen und diese Fehlernachrichten zu verhindern, wird empfohlen, mindestens 512 MB Arbeitsspeicher für jeden Java-Prozess zu reservieren, der auf einer Maschine ausgeführt wird.
Hohe CPU-Belastung in einer großen Zellenkonfiguration, wenn die Sicherheit aktiviert ist
In bestimmten Konfigurationen und Zuständen kann die für die Erkennung (Discovery) benötigte Zeit nennenswert hoch werden.- Wenn eine hohe Anzahl von Prozessen in einer Stammgruppe definiert sind, muss eine entsprechend hohe Anzahl von Verbindungen für die Unterstützung dieser Prozesse hergestellt werden.
- Wenn eine hohe Anzahl inaktiver Prozesse in einer Stammgruppe definiert ist, wird in jedem Discovery-Intervall eine entsprechend hohe Anzahl von Verbindungen verwendet.
- Wenn die Verwaltungssicherheit aktiviert ist, werden die DCS-Verbindungen gesichert, und das Öffnen einer Verbindung hat größere Auswirkungen.
Verwenden Sie die Seite Erkennung und Fehlererkennung in der Administrationskonsole, um die Zeit zu erhöhen, die das Erkennungsprotokoll wartet, um die Gruppe der nicht verbundenen Stammgruppenmember zu ermitteln, und versucht, Verbindungen zu diesen Membern zu öffnen. Wenn Sie die Zeit zwischen aufeinander folgenden Erkennungsperioden erhöhen, verringert die CPU-Zeit, die für die Erkennung aufgebracht wird. Weitere Informationen finden Sie im Artikel Erkennungsprotokoll für eine Stammgruppe konfigurieren.
Vorübergehende Heartbeat-Fehler bei Hochverfügbarkeit unter hoher Arbeitslast
Unter hoher Arbeitslast können in einer Konfiguration mit hoher Verfügbarkeit zwischen den Replikationspartnern vorübergehend Heartbeat-Fehlerbindungen auftreten, auch wenn beide Partner anscheinend ordnungsgemäß ausgeführt werden.
In
Linux-Betriebssystemen kann dieses Problem durch TCP-Verbindungsprobleme im Replikationskanal zwischen
den Replikationspartnern verursacht werden.
Diese Verbindungsprobleme treten auf, weil der TCP-Puffer nicht ausreicht,
um die große Menge an Replikationsdaten zu unterstützen, die ausgetauscht werden.
Zur Vermeidung dieser störenden Heartbeat-Fehlerbedingungen wird empfohlen,
die TCP-Puffergrößen entsprechend der Empfehlung im Abschnitt über die Linux-Kerneloptimierung
in dem Artikel über die Optimierung von SIP-Servlets für Linux zu anzupassen.