Protocolos de descubrimiento y detección de anomalías de grupos principales

Cuando se inicia un miembro de grupo principal no existe ninguna otra conexión con otros miembros de grupo principal. Si un grupo principal se configura para ejecutarse con cualquiera de los protocolos de descubrimiento o detección de anomalías o un proveedor de protocolos alternativos, las tareas de descubrimiento y detección de anomalías o las tareas del proveedor de protocolos alternativos se iniciarán como parte del procedimiento de inicio de procesos. Estas tareas establecen conectividad con otros miembros de grupo principal, supervisan dicha conectividad y gestionan errores de conectividad de dicho miembro de grupo principal a intervalos planificados regularmente siempre y cuando el miembro de grupo principal esté activo.

Protocolo de descubrimiento por omisión

Nota: En este tema se hace referencia a uno o más de los archivos de registro del servidor de aplicaciones. Como alternativa recomendada, puede configurar el servidor para utilizar la infraestructura de registro y rastreo HPEL en lugar de utilizar los archivos SystemOut.log , SystemErr.log, trace.log y activity.log en sistemas distribuidos y de IBM® i. Puede también utilizar HPEL junto con sus recursos de registro nativos de z/OS. Si utiliza HPEL, puede acceder a toda la información de registro y rastreo utilizando la herramienta de línea de mandatos LogViewer desde el directorio bin de perfil de servidor. Consulte la información sobre la utilización de HPEL para resolver problemas de aplicaciones para obtener más información sobre la utilización de HPEL.

El Protocolo de descubrimiento por omisión establece la conectividad de red con los demás miembros del grupo principal. Para establecer esta conectividad, el Protocolo de descubrimiento recupera la lista de miembros de grupo principal y la información de red asociada a partir de los valores de configuración del producto. A continuación, el Protocolo de descubrimiento intenta abrir las conexiones de red para resto de los miembros de grupo principal. Durante intervalos periódicos, el Protocolo de descubrimiento vuelve a calcular el conjunto de miembros desconectados e intenta abrir las conexiones para ellos.

Cuando se establece una conexión con otro miembro de grupo principal, el Protocolo de descubrimiento se lo notifica al protocolo VSP (View Synchrony Protocol) y registra cronológicamente este suceso como un mensaje informativo, parecido al siguiente mensaje, en el archivo SystemOut.log.
DCSV1032I: Pila DCS
DefaultCoreGroup en miembro MyCell\anzio\nodeagent: 
Se ha conectado un miembro definido MyCell\anzioCellManager\dmgr.

Las conexiones pueden generar un error en cualquier momento debido a causas diversas. El Protocolo para la detección de anomalías detecta los errores de conexión y se lo notifica al Protocolo de descubrimiento. A continuación, el Protocolo de descubrimiento intenta abrir una nueva conexión de red para el miembro durante el siguiente intervalo planificado.

La cantidad de ciclos de CPU que consume la tarea del Protocolo de descubrimiento es proporcional al número de miembros de grupo principal que se detienen o que no son accesibles. Los ciclos de CPU que consume la tarea del Protocolo de descubrimiento son insignificantes en los valores predeterminados.

Protocolo de detección de anomalías por omisión

El protocolo para la detección de anomalías supervisa las conexiones de red de grupo principal que establece el Protocolo de descubrimiento. Cuando el protocolo para la detección de anomalías detecta una conexión de red con anomalía, informa de ésta a VSP (View Synchrony Protocol) y al Protocolo de descubrimiento. VSP (View Synchrony Protocol) ajusta la vista para que excluya al miembro anómalo. El Protocolo de descubrimiento intenta restablecer una conexión de red con el miembro anómalo. Esta tarea se ejecuta mientras el miembro esté activo.

El protocolo para la detección de anomalías utiliza dos mecanismos diferenciados para buscar los miembros anómalos:
Busca las conexiones que se han cerrado porque el socket subyacente se ha cerrado.

Cuando un miembro de grupo principal se detiene generalmente en respuesta a un mandato de administración, el transporte de grupo principal para ese miembro también se detiene y el socket asociado con el transporte se cierra. Si un miembro de grupo principal termina de forma anómala, normalmente el sistema operativo subyacente cierra los sockets que el proceso ha abierto y el socket asociado con el transporte de grupo principal .

Para cualquiera de los tipos de terminación, los miembros de grupo principal que tengan una conexión abierta con el miembro que se ha interrumpido reciben la notificación de que la conexión ya no se puede utilizar. El miembro de grupo principal que recibe la notificación de cierre del socket considera al miembro que se ha interrumpido como un miembro anómalo.

Cuando se detecta un miembro anómalo debido al mecanismo de socket cerrado, el mensaje siguiente se registrar en el archivo SystemOut.log para los miembros supervivientes:
DCSV1115W: DCS Stack DefaultCoreGroup at Member anzioCell01\anzio\ServerD:
Member anzioCell01\anzio\ServerC connection  was closed. Member will  be removed from view.
DCS connection status is Discovery|Ptp, transmitter closed.

El mecanismo de socket cerrado es el modo para descubrir los miembros anómalos. Los valores TCP del sistema operativo subyacente como, por ejemplo, FIN_WAIT afectan a la rapidez con la que se reciben los suceso de cierre de socket.

Escucha las pulsaciones activas de los miembros de grupo principal.

El mecanismo de pulsaciones activas es análogo al TCP que mantiene activa la función. Durante intervalos planificados regularmente, todos los miembros de grupo principal envían un paquete de ping en cada conexión de grupo principal abierta. La velocidad o periodicidad según la cual se envíe el paquete se denomina periodo de transmisión de pulsaciones.

Cada miembro de grupo principal espera recibir un paquete en cada una de las conexiones abiertas procedente del miembro de grupo principal en el otro extremo de la conexión. Si no se recibe ningún paquete mediante una conexión abierta en el tiempo especificado para el periodo de tiempo de espera de pulsación, el miembro del otro extremo de la conexión se marcará como erróneo.

El periodo de tiempo de espera de pulsación debe ser un número entero múltiplo del periodo de transmisión de pulsaciones. El periodo de tiempo de espera de pulsación también debe tener al menos el doble de duración que el periodo de transmisión de pulsaciones.

Cuando un miembro se marca como anómalo, el siguiente mensaje se envía al archivo de registro de errores:
DCSV1112W: Pila DCS DefaultCoreGroup en miembro anzioCell01\anzioCellManager01\dmgr: 
Se sospecha del miembro anzioCell01\nettuno\ServerB debido a que se ha excedido el tiempo de espera de pulso. 
El tiempo de espera configurado es 180000 milisegundos. El canal lógico DCS es Connected|Ptp.

Las pulsaciones activas son muy útiles para detectar los miembros de grupo principal a los que no se puede llegar porque se ha detenido la red. Las pulsaciones activas consumen parte de la utilización de la CPU. La cantidad de utilización de la CPU que se consume es proporcional al número de miembros activos del grupo principal. La configuración por omisión para las pulsaciones activas consiste en un equilibrio entre la utilización de la CPU y la detección de miembros anómalos puntualmente.

Puede utilizar la consola administrativa o la herramienta wsadmin para configurar el periodo de transmisión de pulsaciones y el periodo de tiempo de espera de pulsación. Lea el tema Configuración del protocolo de detección de anomalías para un grupo principal para obtener una descripción sobre cómo utilizar la consola administrativa para cambiar estos valores.

[IBM i][AIX Solaris HP-UX Linux Windows]

Proveedores de protocolos alternativos

Actualmente, no hay ningún proveedor de protocolos alternativos disponible para las plataformas distribuidas e IBM i.

Proveedores de protocolos alternativos

Puede utilizar un proveedor de protocolos alternativos en lugar del protocolo de descubrimiento y el protocolo de detección de anomalías para supervisar y gestionar las comunicaciones entre los miembros del grupo principal. En general, los proveedores de protocolo alternativos, por ejemplo el proveedor basado en XCF (Cross-system Coupling Facility - Recurso de acoplamiento de sistemas cruzados) de z/OS, utilizan menos recursos de sistema que el Protocolo de descubrimiento y el Protocolo de detección de anomalías predeterminados, especialmente durante los momentos en que los miembros de grupo principal están desocupados. Un proveedor de protocolos alternativos normalmente utiliza menos recursos del sistema porque no lleva a cabo pings de TCP/IP miembro a miembro que los proveedores de protocolos por omisión utilizan para determinar si un miembro de grupo sigue activo.

[z/OS]Si decide utilizar el proveedor de protocolo basado en XCF (Cross-system Coupling Facility) de z/OS, deberá comprender que, en el arranque, el proceso de servidor se une, como miembro, a un grupo XCF. El grupo XCF contiene todos los miembros activos del grupo principal. XCF proporciona notificación a todos los miembros de este grupo siempre que un miembro se une el grupo y siempre que ya no se puede establecer contacto con un miembro porque el cierre de servidor o XCF determina que el proceso de servidor ha terminado. Siempre que se establece una conexión entre miembros de grupo principal, el proveedor de protocolo basado en XCF (Cross-system Coupling Facility) de z/OS notifica al protocolo View Synchrony Protocol y registra cronológicamente este suceso como un mensaje informativo, similar al mensaje siguiente, en el archivo SystemOut.log.
DCSV1032I: Pila DCS
DefaultCoreGroup en miembro MyCell\anzio\nodeagent: 
Se ha conectado un miembro definido MyCell\anzioCellManager\dmgr.
Antes de volver a configurar un grupo principal específico para utilizar un proveedor de protocolos alternativos, deberá verificar que dicho grupo principal cumple los requisitos siguientes. Si el grupo principal no cumple todos estos requisitos, deberá seguir utilizando el protocolo de descubrimiento por omisión y el protocolo de detección de anomalías por omisión con el grupo principal en cuestión.
  • El grupo principal es homogéneo. Esto significa que todos los procesos del grupo principal deben reside en la misma plataforma. Por ejemplo, el grupo principal no puede contener una mezcla de procesos z/OS y distribuidos.

    [z/OS]Si el grupo principal contiene procesos que no son z/OS o si está compuesto por miembros que pertenecen a diferentes niveles de versión del producto, no podrá utilizar XCF para este grupo principal.

  • Si debe crear un punto entre el grupo principal y otro grupo principal, mediante el servicio de puente de grupo principal, todos los grupos que se unan a éste mediante un puente también serán homogéneos.
  • Todos los miembros del grupo principal deben ejecutar la versión 7.x del producto. Si algún miembro del grupo principal se ejecutan con la versión 6.x del producto, deberá actualizar dicho grupo a la versión 7.x para poder cambiar al proveedor de protocolos alternativos.

Icon that indicates the type of topic Concept topic



Timestamp icon Last updated: last_date
http://www14.software.ibm.com/webapp/wsbroker/redirect?version=cord&product=was-nd-mp&topic=crun_ha_discovery
File name: crun_ha_discovery.html