核心群組探索和失敗偵測通訊協定

當核心群組成員啟動時,沒有與其他核心群組成員的連線。如果核心群組已配置為與預設「探索和失敗偵測通訊協定」或替代通訊協定提供者一起執行,則探索和失敗偵測作業或替代通訊協定提供者作業將作為處理程序啟動程序的一部分來啟動。每當這個核心群組成員處於作用中狀態,則這些作業會在排定的間隔,定期建立與其他核心群組成員的連線、監視此連線,並處理這個核心群組成員的連線失敗情形。

預設的探索通訊協定

註: 這個主題參照一或多個應用程式伺服器日誌檔。 此外,在分散式和 IBM® i 系統上,另外也建議您可以配置伺服器來使用「高效能可延伸記載 (HPEL)」日誌和追蹤基礎架構,而不使用 SystemOut.logSystemErr.log, trace.logactivity.log 檔案。HPEL 與原生 z/OS® 記載機能也可以一起使用。如果您使用 HPEL,則可以從伺服器設定檔 bin 目錄,利用 LogViewer 指令行工具來存取您所有的日誌和追蹤資訊。請參閱有關利用 HPEL 疑難排解應用程式的資訊,以取得更多使用 HPEL 的相關資訊。

預設的「探索通訊協定」可建立與核心群組其他成員的網路連線功能。如果要建立此連線,「探索通訊協定」會從產品配置設定中,擷取核心群組成員清單及相關聯的網路資訊。然後,「探索通訊協定」會嘗試開啟與其他所有核心群組成員的網路連線。「探索通訊協定」會定期重新計算未連接的成員集,並嘗試開啟通往這些成員的連線。

「探索通訊協定」會在建立與另一個核心群組成員的連線之後,通知「視圖同步化通訊協定」,並在 SystemOut.log 檔中,將此事件記錄為類似下列訊息的參考訊息。
DCSV1032I: DCS Stack DefaultCoreGroup at Member MyCell\anzio\nodeagent:
Connected a defined member MyCell\anzioCellManager\dmgr.

在任何時候,連線都可能會因各種原因而失敗。「失敗偵測通訊協定」會偵測連線失敗,並通知「探索通訊協定」。 然後,「探索通訊協定」就會在下一個排定間隔,嘗試開啟與這個成員的另一個網路連線。

「探索通訊協定」作業所耗用的 CPU 週期數目,與已停止或無法存取的核心群組成員數目成比例。 在預設值中,您可以忽略「探索通訊協定」作業所耗用的 CPU 週期數目。

預設失敗偵測通訊協定

「失敗偵測通訊協定」可監視「探索通訊協定」所建立的核心群組網路連線。當「失敗偵測通訊協定」偵測到失敗的網路連線時,即會向「視圖同步化通訊協定」及「探索通訊協定」報告此一失敗情形。「視圖同步化通訊協定」就會調整視圖以排除失敗的成員,而「探索通訊協定」會嘗試重新建立與失敗成員之間的網路連線。只要成員處於作用中狀態,就會執行這項作業。

「失敗偵測通訊協定」使用下列這兩種不同的機制來尋找失敗的成員:
它會尋找因基礎通訊端關閉而關閉的連線。

當核心群組成員因回應管理指令而正常停止時,該成員的核心群組傳輸也會停止,而與傳輸相關聯的通訊端也會關閉。當核心群組成員異常終止時,基礎作業系統通常會關閉處理程序所開啟的通訊端,以及與核心群組傳輸相關聯的通訊端。已關閉。

無論是哪一種終止類型,和已終止成員之間有開啟連線的核心群組成員都會被告知,該連線已無法使用。收到通訊端關閉通知的核心群組成員,會將已終止的成員視為失敗的成員。

如果因通訊端關閉機制而偵測到失敗成員,則會針對還存在的成員,在 SystemOut.log 檔案中記錄下列訊息:
DCSV1115W: DCS Stack DefaultCoreGroup at Member anzioCell01\anzio\ServerD:
Member anzioCell01\anzio\ServerC connection  was closed. Member will  be removed from view.
DCS connection status is Discovery|Ptp, transmitter closed.

失敗的成員通常是透過已關閉的通訊端機制發現的。基礎作業系統中的 TCP 設定(例如,FIN_WAIT)會影響通訊端關閉事件的接收速度。

它會接聽核心群組成員的作用中活動訊號。

作用中的活動訊號機制與 TCP 保持作用中功能類似。每一個核心群組成員都會在定期排定的間隔,對開啟的每一個核心群組連線傳送連線測試封包。傳送這封包的速率或週期稱為活動訊號傳輸期間。

每一個核心群組成員都預期會收到連線另一端之核心群組成員,對每一個開啟的連線所傳來的封包。如果沒有在針對活動訊號逾時期間指定的時間長度內,透過開啟的連線收到封包,則連線另一端的成員會被標示為失敗。

活動訊號逾時期間必須是活動訊號傳輸期間的整數倍。活動訊號逾時期間還必須至少是活動訊號傳輸期間的兩倍。

當成員被標示為失敗時,下列訊息會傳送至錯誤日誌檔:
DCSV1112W: DCS Stack DefaultCoreGroup at Member anzioCell01\anzioCellManager01\dmgr:
Suspected member anzioCell01\nettuno\ServerB because of heartbeat timeout.
Configured Timeout is 180000 milliseconds. DCS logical channel is Connected|Ptp.

如果要偵測因網路停止而無法存取的核心群組成員,作用中的活動訊號是最有用的方法。作用中的活動訊號會耗用一些 CPU 資源。已耗用的 CPU 使用量與核心群組中的作用中成員數目成比例。作用中活動訊號的預設配置,是平衡 CPU 使用量與及時偵測失敗成員。

您可以使用管理主控台或 wsadmin 工具來配置活動訊號傳輸期間及活動訊號逾時期間。請閱讀為核心群組配置「失敗偵測通訊協定」主題,以取得如何使用管理主控台來變更這些設定的說明。

[IBM i][AIX Solaris HP-UX Linux Windows]

替代通訊協定提供者

目前沒有可供 IBM i 和分散式平台使用的替代通訊協定提供者。

替代通訊協定提供者

您可以使用替代通訊協定提供者,而不是預設的「探索通訊協定」和「失敗偵測通訊協定」,來監視及管理核心群組成員之間的通訊。一般而言,替代通訊協定提供者,例如以 z/OS 跨系統連結機能 (XCF) 為基礎的提供者,比預設的「探索通訊協定」和「失敗偵測通訊協定」使用更少的系統資源,尤其當核心群組成員閒置時更是如此。 替代通訊協定提供者一般使用較少的系統資源,因為它不執行成員對成員 TCP/IP 連線測試,預設通訊協定提供者會利用此連線測試來判斷核心群組成員是否仍在作用中。

[z/OS]如果您決定使用以 z/OS 跨系統連結機能 (XCF) 為基礎的通訊協定提供者,您應該瞭解,伺服器處理程序會在啟動時,以成員的形式結合至 XCF 群組。XCF 群組包含核心群組的所有作用中成員。XCF 提供者會在下列情況下,對此群組的所有成員發出通知:每當有成員加入群組時、每當成員因伺服器關機而無法再聯絡時,或是當 XCF 判定伺服器處理程序已終止時。每當在核心群組成員之間建立連線時,以 z/OS 跨系統連結機能 (XCF) 為基礎的通訊協定提供者就會通知「視圖同步化通訊協定」,並在 SystemOut.log 檔中,將此事件記錄為類似下列訊息的參考訊息。
DCSV1032I: DCS Stack DefaultCoreGroup at Member MyCell\anzio\nodeagent:
Connected a defined member MyCell\anzioCellManager\dmgr.
在重新配置特定的核心群組,以使用替代通訊協定提供者之前,您必須先驗證該核心群組是否符合下列需求。如果這個核心群組不符合所有需求,則您必須繼續對此核心群組使用預設的「探索通訊協定」和預設的「失敗偵測通訊協定」。
  • 核心群組是同質的。這表示核心群組處理程序必須全部位於相同平台上。例如,核心群組不能同時包含 z/OS 和分散式處理程序。

    [z/OS]如果核心群組包含非 z/OS 處理程序,或是如果核心群組是由不同產品版本層次的成員組成,則無法針對此核心群組使用 XCF。

  • 如果核心群組必須橋接至另一個核心群組,請使用核心群組橋接器服務,如此一來,橋接至此核心群組的所有核心群組,也會是同質的核心群組。
  • 核心群組的所有成員都必須位於產品的 7.x 版。 如果核心群組有任何成員是在 6.x 版層次的產品上執行,您必須先將它們更新至 7.x 版,然後才能切換至替代通訊協定提供者。

指出主題類型的圖示 概念主題



時間戳記圖示 前次更新: last_date
http://www14.software.ibm.com/webapp/wsbroker/redirect?version=cord&product=was-nd-mp&topic=crun_ha_discovery
檔名:crun_ha_discovery.html