Cómo elegir entre la recuperación de igual de transacciones manual o automática

El tipo de sistemas de archivos es el factor determinante a la hora de decidir qué tipo de recuperación de igual de transacciones se va a utilizar. Distintos sistemas de archivos tienen comportamientos distintos y el comportamiento de bloqueo de archivos, en concreto, es importante al escoger entre la recuperación de igual manual o automática.

El soporte de alta disponibilidad (HA) de WebSphere Application Server utiliza un mecanismo de pulsaciones para determinar si los servidores se están ejecutando todavía. Los servidores se consideran anómalos si dejan de responder a las solicitudes de pulsaciones. Algunos escenarios como la sobrecarga del sistema o las partición de red (que se explica en otras secciones de este tema) pueden ocasionar que los servidores dejen de responder a las pulsaciones, incluso si los servidores se están ejecutando todavía. WebSphere Application Server utiliza la tecnología de bloqueo de archivos para evitar que estos sucesos provoquen el acceso simultáneo a los registros cronológicos de recuperación de transacciones, porque el acceso a un registro de recuperación por más de un servidor puede provocar una perdida de la coherencia de los datos.

No obstante, no todos los sistemas de archivos proporcionan la semántica de bloqueo de archivos necesaria, especialmente que los bloqueos de archivos se liberen cuando se genera un error en un servidor. Por ejemplo, Network File System Versión 4 (NFSv4) proporciona este comportamiento anterior mientras que Network File System Versión 3 (NFSv3) no lo hace.

Puede probar si un sistema de archivos compartidos puede dar soporte a la sustitución por anomalía de registros de transacciones ejecutando la prueba de protocolo de bloqueo del sistema de archivos para WebSphere Application Server. Para ejecutar la prueba consulte, http://www-01.ibm.com/support/docview.wss?uid=swg24010222.

NFSv4 libera los bloqueos que se mantienen en nombre de un host en el caso de que ese host genere un error. La recuperación de igual se puede producir automáticamente sin reiniciar el hardware anómalo. Por lo tanto, esta versión de NFS está mejor adaptada para el uso con la recuperación de igual automática.

NFSv3 mantiene bloqueos de archivos en nombre de un host anómalo hasta que se pueda reiniciar ese host. En este contexto, el host es la máquina física que ejecuta el servidor de aplicaciones que ha solicitado el bloqueo, y cuando se reinicia el host, y no el servidor de aplicaciones, se liberan definitivamente los bloqueos.

Para ilustrar el bloqueo de archivos en NFSv3, tenga en cuenta el comportamiento cuando un miembro de clúster genera un error:
  1. El servidor H se ejecuta en un host H y mantiene un bloqueo de archivos exclusivo para sus propios archivos de registro cronológico.
  2. El servidor P se ejecuta en un host P y mantiene un bloqueo de archivos exclusivo para sus propios archivos de registro cronológico.
  3. El host H genera un error y se lleva consigo al servidor H. El gestor de bloqueos NFS del servidor de archivos mantiene los bloqueos que se otorgan al servidor H en su nombre.
  4. Un suceso de recuperación de igual se desencadena en el servidor P para el servidor H por WebSphere Application Server.
  5. El servidor P intenta obtener un bloqueo de archivos exclusivo para este registro de recuperación de igual, pero no puede hacerlo ya que se mantiene en nombre del servidor H. El proceso de recuperación de igual se bloquea.
  6. En un momento no especificado, el host H se reinicia. Los bloqueos mantenidos en su nombre se liberan.
  7. El proceso de recuperación de igual en el servidor P se desbloquea y se le otorgan los bloqueos de archivo exclusivos necesarios para realizar la recuperación de igual.
  8. La recuperación de igual tiene lugar en el servidor P para el servidor H.
  9. El servidor H se reinicia.
  10. Si la recuperación de igual todavía está en curso en el servidor P, se interrumpe la recuperación.
  11. El servidor P libera el bloqueo exclusivo en los registros de recuperación y devuelve la propiedad de los registros de recuperación al servidor H.
  12. El servidor H obtiene el bloqueo exclusivo y ahora puede realizar el registro cronológico de transacciones estándar.

Debido a este comportamiento, en NFSv3 debe inhabilitar el bloqueo de archivos para utilizar la recuperación de igual automática. La inhabilitación del bloqueo de archivos puede provocar el acceso simultáneo a los registros de recuperación de modo que es vital que primero proteja el sistema de la sobrecarga del sistema y la partición de red. De manera alternativa, puede configurar la recuperación de igual manual, donde se evita el acceso simultáneo mediante el desencadenamiento manual del proceso de recuperación de igual sólo para los servidores que han fallado.

Sobrecarga del sistema
La sobrecarga del sistema ocurre cuando una máquina se carga tanto que los tiempos de respuesta son muy bajos y las solicitudes empiezan a caducar. Existen varias causas potenciales que explican esta sobrecarga, que incluyen:
  • El servidor no tiene la suficiente potencia y no puede manejar la carga de trabajo.
  • El servidor recibe una avalancha temporal de solicitudes.
  • La memoria física disponible es insuficiente. Como, resultado, el sistema operativo está demasiado ocupado paginando para dar al servidor de aplicaciones el tiempo de CPU necesario.
Partición de red
la partición de red se produce cuando un error de las comunicaciones de una red generan dos redes más pequeñas que son independientes y no pueden ponerse en contacto entre ellas.
Figura 1. Comparación de las pulsaciones de un sistema que se ejecuta satisfactoriamente con las pulsaciones tras las aparentes anomalías de sobrecarga del sistema y partición de red de los servidoresComparación de las pulsaciones de un sistema que se ejecuta normalmente con las pulsaciones después de las aparentes anomalías de sobrecarga de sistema y de particionamiento de red de los servidores

Durante la ejecución normal, dos servidores de la red intercambian pulsaciones. Durante la sobrecarga del sistema, las operaciones de pulsaciones caducan, lo que da la apariencia de que se ha producido una anomalía de servidor. Después de la partición de red, cada servidor está en una red separada y las pulsaciones no pueden pasar entre ellas, lo que también da la apariencia de que se ha producido una anomalía de servidor.


Icon that indicates the type of topic Concept topic



Timestamp icon Last updated: last_date
http://www14.software.ibm.com/webapp/wsbroker/redirect?version=cord&product=was-nd-mp&topic=cjta_hacons_log
File name: cjta_hacons_log.html