![[z/OS]](../images/ngzos.gif)
Redémarrage et reprise sur un système homologue
L'objectif de tout système est de réduire les durées d'immobilisation autant que possible. Parfois, cependant, les défaillances système sont inévitables. Par exemple, une défaillance système peut se produire en raison d'une panne de courant imprévue dans le système principal. En cas de défaillance système, vous pouvez redémarrer sur un système homologue d'un sysplex. Ce type de redémarrage utilise la fonction de redémarrage et de reprise sur un système homologue. Le fait de démarrer un serveur sur un système pour lequel il n'a pas été configuré de manière implicite a pour effet de le mettre en mode redémarrage et reprise sur système homologue.

Lorsque vous êtes confronté à une panne du système principal entraînant des transactions en attente de validation dont les résultats sont inconnus, vous devez obtenir ces résultats de transactions (corrects dans l'idéal) avant que les données ne puissent être utilisées à nouveau. Le redémarrage et la reprise sur système homologue offrent une méthode automatisée pour y parvenir, en redémarrant le contrôleur sur un système homologue de sorte que les "verrous" qui bloquent les données soient ouverts et que les résultats soient déterminés. Cette méthode contraste avec la façon dont un système fait généralement face à une défaillance en annulant automatiquement les opérations.
- peut redémarrer le produit et les serveurs connexes sur le même système, ou
- peut utiliser la fonction de redémarrage et de reprise sur un système homologue pour redémarrer les serveurs
connexes sur un autre système de la cellule.
Le serveur n'est pas un gestionnaire de ressources récupérable. C'est un gestionnaire de communications récupérable. Il ne comporte aucun verrou récupérable et n'a pas besoin de gérer les verrous ou les états de ces derniers dans un journal. Il doit simplement s'assurer que les appelants et les appelés sont connectés dans chacune des sessions de communication d'une transaction répartie.
Le redémarrage et la reprise sur système homologue redémarrent le contrôleur sur un autre système et passent par la procédure de redémarrage et de reprise de transaction de sorte qu'il est possible d'attribuer des résultats à des transactions qui étaient en cours au moment de la panne. Pendant cette procédure de redémarrage et de reprise de transaction, il est possible que des données soient temporairement inaccessibles, jusqu'à l'achèvement de la procédure de reprise. La procédure de redémarrage et de reprise n'entraîne aucune perte de données.
Les gestionnaires de ressources, comme DB2, qui étaient utilisés au moment de la panne peuvent maintenir des verrous qui sont sectorisés sur une unité de récupération (UR) de transaction. Une fois qu'un résultat a été attribué à une unité de récupération, les gestionnaires de ressources libèrent en général ces verrous.