Divers facteurs peuvent être à l'origine d'une reprise du système.
La reprise de solution est le processus qui renvoie le système à un certain état à partir duquel il est possible de reprendre les opérations. Elle englobe un ensemble d'activités qui traitent l'incident ou l'indisponibilité du système tels que ceux causés par des circonstances imprévisibles.
Vous pouvez être amenés à réaliser des activités de reprise dans les circonstances suivantes :
Un arrêt anormal ou une panne du système peuvent être causés par une coupure d'alimentation ou un incident matériel fatal. Cela peut provoquer l'arrêt du système (tout le système si ce n'est la plupart des JVM).
Dans le cas d'un incident matériel catastrophique, l'état de la solution déployée peut être incohérent au redémarrage.
Les incidents matériel et les problèmes d'environnements font également partie des temps d'arrêt imprévisibles, bien que dans une moindre mesure que d'autres facteurs.
Vous pouvez réduire le risque de tels incidents grâce à des fonctions comme les fonctions de pointe LPAR avec des ajustements de ressources par optimisation automatique, la capacité à la demande (afin d'éviter la surcharge des systèmes), et au matériel redondant dans les systèmes (afin d'éviter les points d'incident uniques).
Le flux de demandes continue dans le système mais, en surface, il semble que tous les traitements soient arrêtés.
Le système répond et la base de données semble fonctionner correctement. Malheureusement, la création de nouvelles instances de processus ne s'effectue pas.
Dans le cas d'un incident d'infrastructure important, la solution peut nécessiter de redémarrer/resoumettre les transactions métier via l'administration une fois l'incident résolu.
Le système fonctionne mais il est très surchargé. Le dépassement du délai d'attente des transactions est rapporté. Le dépassement de la capacité planifiée est manifeste.
Une optimisation des performances ou une prévision de la capacité incomplètes peuvent entraîner l'instabilité de la solution.
Les modules faisant partie d'une solution personnalisée peuvent avoir des bogues. Ces bogues peuvent entraîner l'instabilité de la solution ou la défaillance de certains services.
Ils peuvent provenir de situations diverses, notamment (mais pas seulement) :
Une stratégie de traitement d'erreurs détaillée peut réduire l'instabilité de la solution.
Un incident dans un produit WebSphere entraîne l'activation ou la suppression des commandes en attente des événements.