Peu importe à quel point le matériel et les logiciels sont devenus fiables aujourd’hui, les machines restent vulnérables aux défaillances pour différentes raisons. Lorsqu’elles plantent, les systèmes peuvent se retrouver hors ligne et les données peuvent devenir indisponibles pendant de longues périodes. Et même lorsque les systèmes sont remis en ligne, il est parfois impossible de restaurer les données et elles sont irrémédiablement perdues. La manière la plus fiable d’atténuer ces risques est de mettre en place un plan complet de reprise après sinistre (DR).
A disaster recovery plan is a set of procedures that must be undertaken to restore data and workloads within set time limits. This detailed DR checklist includes mechanisms put in place in advance to prepare for different disaster scenarios.
Les statistiques montrent que 95 % des entreprises dans le monde investissent des ressources considérables dans la planification du pire, y compris dans le DR. Cependant, seuls 78 % d’entre elles effectuent des tests de reprise après sinistre pour vérifier que leur plan répond effectivement aux objectifs. Continuez à lire pour découvrir ce qu’est le test de reprise après sinistre et comment élaborer une stratégie de test de DR pour votre organisation afin de garantir la disponibilité du système et la continuité des activités en cas d’incident.
Qu’est-ce que le test de reprise après sinistre?
Le test de reprise après sinistre consiste à vérifier les étapes du plan de DR pour s’assurer que le plan peut être mis en œuvre avec succès et que les applications critiques et les données peuvent être restaurées après une perturbation. Le test du plan de reprise après sinistre vise à garantir que les opérations commerciales et les services critiques peuvent être maintenus pendant et après un incident.
Les tests de récupération après sinistre dans leur forme la plus complète consistent à simuler une défaillance informatique ou tout autre type de perturbation commerciale afin d’évaluer le plan de récupération après sinistre en place. Les principaux objectifs des tests de récupération après sinistre sont de vérifier si une organisation peut respecter les objectifs de temps de récupération (RTO) et les objectifs de point de récupération (RPO) définis dans le plan de récupération après sinistre. Vous devriez comprendre les RPO par rapport aux RTO et les définir pour chaque application et machine virtuelle. Le test de récupération après sinistre offre également des informations sur le comportement du système si une partie de votre infrastructure devient indisponible. Ces informations peuvent vous aider à peaufiner le plan de récupération après sinistre de votre organisation et à corriger les maillons faibles avant qu’une perturbation réelle ne se produise.
Gardez à l’esprit qu’un plan de test de récupération après sinistre ne devrait pas se limiter aux composants techniques du plan de récupération après sinistre. Il est tout aussi important de vérifier que chaque employé impliqué dans la récupération après sinistre comprend son rôle et a accès aux ressources nécessaires pour effectuer son travail en cas de perturbation.
Les tests de plan de récupération après sinistre doivent être réalisés régulièrement, de préférence quelques fois par an. Les environnements informatiques changent régulièrement avec la désactivation de logiciels, l’introduction de nouvelles applications ou le remplacement de matériel, ce qui nécessite des modifications appropriées à votre plan de récupération après sinistre. Le processus de test de récupération après sinistre peut faire partie des routines de maintenance et de la formation du personnel.
Pourquoi les tests de récupération après sinistre sont importants
Le risque de ne pas tester un plan de reprise après sinistre est la perte de données et l’accès aux systèmes. Vous pouvez assurer votre entreprise contre les pertes, mais aucune police d’assurance ne peut remplacer les données perdues à la suite d’un incident ou les répercussions d’une période d’arrêt prolongée sur une entreprise. La seule façon de garantir vraiment la disponibilité et la disponibilité est de créer un plan de reprise après sinistre et d’effectuer des tests réguliers. Si vous n’êtes toujours pas convaincu que tester le plan de reprise après sinistre est nécessaire, voici une liste de ce que les tests de reprise après sinistre vous aident à réaliser avant qu’un incident ne se produise:
- Découvrir les lacunes ou les défauts dans un plan de reprise après sinistre
- S’assurer que vous avez la bonne séquence d’actions pendant la récupération
- Vérifier que les objectifs de récupération sont réalistes et peuvent être atteints
- Minimiser la perte de données
- Exécuter les actions de l’équipe de reprise après sinistre et s’assurer que chaque membre comprend son rôle
- Introduire des mises à jour et des correctifs avant qu’il ne soit trop tard
Composantes d’un Processus de Test de Reprise après Sinistre
A DR test should be planned to ensure that it brings results and helps improve DR readiness. This means that disaster recovery test objectives should be clear, and you should have a specified timetable for how often to conduct tests, the criteria for success, evaluation of results, and steps to address gaps and any DR failures. Let’s go over these components in more detail.
Définir la portée du test de reprise après sinistre
La portée des tests de reprise après sinistre implique un ensemble d’hypothèses et d’attentes qui doivent être satisfaites pendant le processus de test. Définir la portée des tests devrait inclure:
- Identifier les systèmes et les fonctions qui seront inclus dans les tests de reprise après sinistre
- Définir quel type de processus de reprise après sinistre sera testé: récupération de machines complètes à partir de sauvegardes, basculement vers un site de reprise après sinistre, etc.
- Établir des exceptions et des limitations à l’avance, car certains composants de votre plan de reprise après sinistre peuvent ne pas être exécutés comme prévu
- Spécifier les départements et le personnel inclus dans le processus de test de reprise après sinistre
- Définition des scénarios qui seront testés : défaillance du site principal, attaque par ransomware, perte de connexion, défaillance du serveur/base de données, etc.
Examen du plan de reprise après sinistre
Avant de procéder aux tests, vous devriez examiner le plan de reprise après sinistre. Les tests de reprise après sinistre doivent être menés de manière organisée en se concentrant sur les politiques et pratiques de l’organisation. Ainsi, l’équipe de reprise après sinistre devrait se réunir avec la direction pour examiner le plan de reprise après sinistre existant et déterminer les changements ou mises à jour qui devraient être mis en œuvre en fonction de l’état actuel de l’entreprise. Cela inclut des facteurs tels que l’introduction de nouveaux matériels ou logiciels, l’expansion de l’entreprise, les coupes budgétaires, le renouvellement du personnel, etc.
Fréquence des tests de reprise après sinistre
Avec les environnements informatiques actuels étant très dynamiques, déterminer la fréquence de révision est essentiel pour maintenir constamment à jour votre plan de reprise après sinistre. Certaines organisations révisent et mettent à jour leurs plans de reprise après sinistre une fois par an. Cependant, la stratégie la plus efficace est de mettre à jour (et de retester) votre plan de reprise après sinistre chaque fois que des composants critiques de votre organisation subissent des changements. Bien que les tests de reprise après sinistre puissent s’avérer chronophages et coûteux, vous devriez créer votre planning de tests en fonction des besoins et des ressources de l’entreprise, en tenant compte de la portée des processus de reprise après sinistre.
Critères de succès des tests
Vous devez définir les critères qui déterminent si vos tests de reprise après sinistre de machines virtuelles sont réussis ou non. Idéalement, les tests de reprise après sinistre de machines virtuelles peuvent être considérés comme réussis lorsque le plan de reprise après sinistre est prouvé valide et viable.
Cependant, le test de reprise après sinistre peut être considéré comme réussi même si un plan de reprise après sinistre n’a pas réussi à passer le test. Ce scénario vous permet d’identifier les défauts dans un plan de reprise après sinistre avant un sinistre réel et de les adresser dans la prochaine itération du plan. Essentiellement, les critères de réussite du test sont définis sur la base des attentes prédéterminées, qui devraient être clairement exprimées dans le plan de test de reprise après sinistre pour éviter toute confusion.
Évaluation des résultats du test
Les résultats d’un processus de test de reprise après sinistre de VM fournissent un aperçu général des stratégies de reprise après sinistre actuellement utilisées dans l’entreprise. L’équipe de reprise peut évaluer les résultats du test et proposer des améliorations ou des ajustements pour le plan de reprise après sinistre sur la base des problèmes identifiés.
Les métriques suivantes devraient également être prises en compte lors de l’évaluation des résultats du test de reprise après sinistre:
- Combien de temps s’est écoulé avant que les activités critiques ne soient restaurées
- Dans quelle mesure chaque étape du plan a été exécutée (si des erreurs ou des retards sont survenus
- Combien d’opérations ont été réussies pendant le processus de test de reprise après sinistre
Des modifications et des mises à jour doivent être apportées et testées pour améliorer le plan de reprise après sinistre. L’objectif est de fournir un processus de récupération plus efficace et plus gérable.
Examen post-test du plan de reprise après sinistre
Après avoir exécuté un plan de reprise après sinistre en mode test, il est conseillé de revoir votre plan de reprise après sinistre une fois de plus. Les forces et les faiblesses, ainsi que tout résultat inattendu, devraient être enregistrés pendant le processus de test de reprise après sinistre et leur impact sur la continuité des activités commerciales devrait être mesuré. Cela peut améliorer considérablement vos stratégies de reprise après sinistre et renforcer les performances globales. Les étapes visant à combler les lacunes et les échecs devraient être détaillées et ajoutées à la prochaine itération du plan de reprise après sinistre.
Facteurs à prendre en compte avant de tester le plan de reprise après sinistre
- Nombre de personnes dans l’équipe de reprise après sinistre : Il devrait y avoir au moins deux personnes dans une équipe de reprise après sinistre afin d’éviter le problème d’un « point de défaillance unique ». Avec plusieurs membres de l’équipe, si une personne ne peut pas être jointe pendant un sinistre, vous pouvez être assuré qu’il existe un remplaçant avec les connaissances requises et l’accès au site de reprise après sinistre.
- Heure choisie pour les tests de reprise après sinistre : Généralement, les tests de reprise après sinistre sont exécutés en dehors des heures de travail, car le processus est long et pourrait interrompre les opérations commerciales ou affecter les performances globales. Cependant, ces résultats de test pourraient ne pas être indicatifs de la façon dont le plan de reprise après sinistre fonctionnerait dans des conditions de travail réelles. Tester les composants d’un plan de reprise après sinistre de machine virtuelle de manière isolée pendant les heures de travail pourrait être une solution idéale. Cela permet de réduire le risque de surcharge système que présente le test complet.
- Changements dans l’équipe ou dans l’infrastructure IT : Avant de tester le plan de reprise après sinistre, considérez les différents facteurs qui pourraient rendre votre plan de reprise incomplet et obsolète. Comme mentionné ci-dessus, ces facteurs peuvent inclure de nouveaux composants d’infrastructure, des changements de personnel, entre autres. Tenez l’équipe de reprise après sinistre informée des nouveaux changements dans l’environnement et envoyez des mémos brefs informant le personnel des dernières mises à jour.
Méthodes de test de reprise après sinistre
Dans cette section, nous couvrons les quatre méthodes de test de reprise après sinistre les plus courantes. Examinez-les attentivement avant de décider laquelle offre la bonne approche pour votre organisation ou si une combinaison de ces approches peut être utilisée.
Test de vérification de liste
A checklist test of a disaster recovery plan involves reviewing the list of requirements and conditions that must be met. This review is a great starting point as it is the most basic option and involves analyzing the current plan and looking over every point in order to spot the outdated or missing parts. This means verifying, for example, that the backup site is of sufficient size, that the recovery team is notified of the latest updates, that the data protection solution is running, etc.
En utilisant cette méthode de test de reprise après sinistre, l’équipe de reprise peut rapidement passer en revue le plan de reprise, s’assurer que chaque composant est en place et identifier tout composant manquant dans la stratégie de reprise. Cette procédure peut être réalisée en un minimum de temps et sans une forte implication du personnel.
Test de simulation
L’objectif de cette stratégie est de parcourir verbalement chaque étape d’un plan de reprise après sinistre pour les machines virtuelles et d’identifier les problèmes et les lacunes. Ici, tous les membres d’une équipe de reprise participent à l’examen et à la discussion du plan de reprise, en proposant des recommandations.
Il est essentiel de s’assurer que tout le monde comprend bien le plan et est conscient de ses responsabilités lors d’un événement de reprise après sinistre. Cette méthode implique uniquement une discussion verbale du processus de reprise après sinistre. Les aspects technologiques de votre plan de reprise après sinistre ne sont pas réellement testés ou approuvés lors du test de simulation.
Test de simulation/tabletop
Pour un test sur table, l’organisation passe par un scénario de catastrophe simulé pour déterminer si un plan de reprise après sinistre est adéquat et si les objectifs définis peuvent être atteints. Cette méthode de test de reprise après sinistre peut être considérée comme une extension du test de déroulement. Tous les membres de l’équipe se voient présenter différents scénarios de catastrophe, qu’ils examinent en discutant de la manière dont ils agiraient dans les circonstances. Cela vous permet de tester la préparation de votre personnel dans un cadre plus réaliste et de vérifier si votre plan de reprise après sinistre peut faire face à des problèmes inattendus.
- Exécution de simulation. L’équipe de reprise après sinistre effectue une marche à travers le plan étape par étape comme si une véritable catastrophe s’était produite. Cette méthode de test de reprise après sinistre aide à identifier les points aveugles potentiels et les problèmes cachés.
- Simulation de scénario. Cette méthode implique l’exécution du plan de reprise après sinistre dans un environnement de test sans perturbation du flux de production. La simulation est exécutée selon des scénarios de récupération spécifiques.
- Simulation complète de reprise après sinistre. Cette méthode de test de reprise après sinistre est similaire à la simulation décrite ci-dessus, mais cette fois le scénario inclut la défaillance totale des opérations sur votre site principal. La méthode implique une tentative de récupération complète sur un site distant.
Test parallèle
Les tests parallèles vous permettent de tester la fonctionnalité de vos systèmes de récupération pour déterminer s’ils peuvent exécuter des opérations commerciales et sécuriser les processus critiques. Les systèmes principaux ne sont pas inclus dans le processus de test de récupération après sinistre, car ils sont censés prendre en charge la charge de production complète. Il s’agit d’une manière sûre et non perturbatrice de tester les systèmes techniques.
Les tests d’interruption complète
A full-interruption DR test provides thorough testing of your VM DR plan. In this case, your DR site assumes the full production workload and the primary site is shut down. The goal is to recover as quickly as possible using the corporate disaster recovery plan. The execution of a full-interruption test should be well thought out as normal operations can be disrupted and it is quite costly.
Chacun des processus de récupération doit être documenté. Identifiez tous les problèmes et préoccupations lors de l’exécution des tests de récupération après sinistre afin de les adresser ultérieurement. Les actions de l’équipe de récupération doivent être étroitement observées pour repérer d’éventuels écarts dans votre plan de récupération de machine virtuelle. Les tests d’interruption complète sont également une méthode appropriée de test de récupération après sinistre pour vérifier si vos objectifs de récupération après sinistre sont acceptables et réalisables.
Vous pourriez envisager de réaliser le test d’interruption complète sans prévenir votre personnel à l’avance. Cela vous permet d’évaluer plus précisément la préparation de votre équipe en cas de sinistre.
Conseils utiles pour les tests de récupération après sinistre
Tester un plan de récupération après sinistre est une tâche importante qui peut sembler accablante par moments. Les conseils suivants pour les tests de récupération après sinistre peuvent vous aider à gagner du temps et à réduire le stress :
- Après l’installation de tout nouveau matériel ou logiciel, testez-les immédiatement pour vérifier leur fonctionnalité et leur intégrité. Cela vous aide également à déterminer le temps de rétablissement objectif du produit et à apprendre comment il pourrait se comporter lors des procédures de récupération après sinistre.
- Effectuez une analyse des risques (AR) et une analyse de l’impact sur l’activité (BIA) avant de concevoir votre plan de reprise d’activité (PRA). Passez constamment en revue les résultats de ces analyses, et si des modifications sont apportées, envisagez comment elles doivent être reflétées dans votre stratégie de PRA.
- Les tests doivent être effectués dans des circonstances aussi similaires que possible à un scénario de PRA. En simulant un scénario de catastrophe réelle, vous pouvez voir dans quelle mesure les employés accomplissent leurs tâches dans des circonstances de PRA. Cela contribue également à réduire le stress parmi votre personnel, car les employés s’habituent davantage à divers scénarios de PRA et apprennent ce qui est attendu d’eux.
- Invitez des observateurs indépendants à examiner votre plan de PRA et à surveiller le processus de test. Cette approche garantit qu’aucun raccourci n’est pris par les employés pour terminer rapidement les tests. De plus, les observateurs indépendants peuvent ensuite aider à réécrire un plan de PRA et à l’améliorer, en identifiant souvent des problèmes qui ne sont pas visibles pour ceux au sein de l’organisation.
- Disposez d’une liste complète de toutes les applications de votre infrastructure. Cette liste devrait inclure les détails de chaque application, leurs configurations, les coordonnées des propriétaires d’applications et vos détails de contrat/licence.
- Aux premières étapes, les tests de PRA doivent être menés par parties et après les heures de bureau afin de ne pas surcharger le système. Après avoir identifié d’éventuelles lacunes et amélioré le plan en conséquence, vous pouvez envisager d’effectuer d’autres tests complets pendant les heures de bureau.
Reprise après sinistre avec NAKIVO Backup & Replication
NAKIVO Backup & Replication est une solution fiable de sauvegarde et de récupération après sinistre. La solution vous permet d’automatiser les processus de sauvegarde, de réplication et de récupération après sinistre tout en garantissant l’intégrité des données sur différentes plateformes (physiques, virtuelles ou cloud). La solution NAKIVO comprend la réplication de machines virtuelles, le basculement de machines virtuelles, la restauration après sinistre et les fonctionnalités de reprise d’activité sur site pour la récupération après sinistre. De plus, vous pouvez tester une séquence de récupération après sinistre pour vous assurer que tout est correctement configuré.
Exécution des tâches de reprise d’activité sur site en mode test
NAKIVO Backup & Replication vous permet d’exécuter des tâches de reprise d’activité sur site en mode test pour vérifier si tous les composants du système peuvent être facilement restaurés lors d’un événement de récupération après sinistre et si les objectifs de DR stipulés peuvent être atteints. Ce test n’interrompt pas les charges de travail de production. Une tâche de reprise d’activité sur site en mode test peut être planifiée et exécutée à la demande.
Le guide suivant vous indique comment exécuter manuellement une tâche de reprise d’activité sur site en mode test. Notez qu’une tâche de reprise d’activité sur site doit d’abord être configurée.
- Dans le tableau de bord Tâches, sélectionnez une tâche de reprise d’activité sur site, puis cliquez sur le bouton Exécuter la tâche. Le menu déroulant vous donne deux options. Cliquez sur la tâche de reprise d’activité sur site de test.
- Dans la boîte de dialogue qui s’affiche, vous pouvez configurer vos métriques RTO. Définissez la quantité maximale de temps permise que votre tâche de reprise d’activité sur site peut prendre pour se terminer. Si l’exécution de test dépasse la valeur RTO que vous avez saisie, le test est considéré comme échoué. Vous pouvez également désactiver cette option.
- Enfin, cliquez sur Tester pour exécuter la tâche.
Options pour le planning des tests
Options pour le planning de test
Vous pouvez également configurer les options de planification des tests lorsque vous configurez une tâche de récupération de site. Ces options fonctionnent lorsque vous exécutez cette tâche en mode test.
Rapport par e-mail
Avec cette option activée, les destinataires sélectionnés reçoivent un rapport de test à chaque fois que la tâche est terminée. Vous devez configurer les paramètres de notification par e-mail dans l’onglet 5. Options avant de cliquer sur Terminer.
Vous pouvez également télécharger un rapport au format PDF ou CSV directement depuis un navigateur web. Faites simplement un clic droit sur une tâche de récupération de site et sélectionnez Rapport de tâche de récupération de site.
Source:
https://www.nakivo.com/blog/disaster-recovery-testing-top-reasons/