La disponibilité des machines virtuelles (VM) est essentielle pour garantir la continuité des activités. Lorsque les services exécutés sur des VMs essentielles aux activités commerciales et stratégiques deviennent indisponibles, les entreprises risquent de perdre de l’argent et la confiance de leurs clients. Pour rétablir immédiatement la disponibilité des VMs après une défaillance, vous devez utiliser des techniques de basculement appropriées.
Le basculement vers une réplique de VM peut faire partie de la reprise après sinistre pour restaurer les données et les opérations avec une perturbation minimale des flux de travail réguliers. Le processus de basculement des VMs devrait être décrit dans la continuité des activités et la reprise après sinistre (BCDR) d’une organisation. Examinons de plus près les types de basculement des VMs et leurs cas d’utilisation.
Qu’est-ce qu’un basculement ?
Le basculement est le processus de reprise d’une machine virtuelle (VM) sur un système secondaire (et parfois dans un emplacement secondaire) suite à une défaillance du système principal. Le système secondaire contient toutes les données nécessaires pour maintenir les opérations commerciales. Un système dans ce contexte peut être un serveur, une base de données, une machine virtuelle, etc.
Dans les environnements virtuels, il existe deux méthodes de basculement courantes :
- Utilisation d’une réplique de VM (généralement située sur un autre serveur de virtualisation) est utilisée pour effectuer le basculement si une VM principale échoue
- Utilisation d’un cluster de basculement (aucune réplication requise)
Le basculement nécessite moins de temps pour restaurer les charges de travail par rapport à la récupération à partir d’une sauvegarde et, par conséquent, vous pouvez atteindre un objectif de temps de récupération (RTO) plus faible. Cependant, l’utilisation de la reproduction de machines virtuelles ou du clustering ne supprime pas le besoin de créer des sauvegardes de machines virtuelles. Une sauvegarde (généralement compressée) est utile lorsque vous avez besoin de récupérer des données à partir d’un ancien point de récupération.
Passons en revue les termes de base de la basculement de machine virtuelle pour la récupération d’urgence basée sur la réplication.
Glossaire du basculement
- Défaillance: Tout problème avec le matériel ou le logiciel à la suite d’un crash du système, d’une coupure de courant, de problèmes de réseau, d’une attaque de ransomware, etc., qui met un système hors ligne.
- Système principal: Le système exécutant les opérations en direct dans l’environnement de production.
- Système secondaire: Le système redondant en veille, qui est régulièrement mis à jour avec des copies du système principal. Le système secondaire peut être hébergé sur site ou à un emplacement distant.
- Réplication: Le processus essentiel pour se préparer au basculement de machine virtuelle. La réplication crée une copie exacte, c’est-à-dire un réplica, de la machine virtuelle principale à un moment donné.
- Basculement de machine virtuelle (VM Failback): Le failback est le processus de basculement vers le système principal à partir de la machine virtuelle répliquée après la résolution de l’incident.
Types de basculement
Il existe trois types de basculement :
- A planned failover is used for scheduled migrations of workloads from one system/site to another. Use cases include performing maintenance on the primary system, electrical works performed at the production site, and expected disaster scenarios. For example, a weather alert about a tornado may require a planned failover to ensure availability.
- Un basculage non planifié est un basculement effectué lorsqu’une défaillance imprévue se produit, entraînant la mise hors ligne d’une machine virtuelle critique ou de l’ensemble du site principal. La défaillance peut être causée par l’une quelconque d’un certain nombre de catastrophes naturelles, d’accidents (une panne de courant), d’une attaque de logiciel malveillant ou de tout autre incident. Pour un basculement non planifié, les hôtes et les répliques doivent être préparés à l’avance.
- A test failover, as the name suggests, is used for testing purposes. Testing scenarios can include rehearsing unplanned failover scenarios to ensure that
La Séquence de Basculement
Pendant un basculement de machine virtuelle, la séquence de basculement des actions et l’ordre de démarrage des machines virtuelles sont essentiels pour garantir la reprise réussie des flux de travail. Ils doivent être définis lors de la phase de développement du plan de reprise après sinistre de votre organisation . La séquence doit capturer les dépendances entre différents services s’exécutant sur différentes machines virtuelles.
Par exemple, l’authentification pour certains services et applications s’exécutant sur des machines virtuelles peut utiliser Active Directory, qui s’exécute sur une autre machine virtuelle. Un serveur de base de données peut s’exécuter sur la première machine virtuelle, un serveur d’applications sur la deuxième et le serveur Web sur la troisième.
Le serveur VM avec Active Directory doit être démarré en premier. Ensuite, les VM avec des services utilisant Active Directory pour l’authentification peuvent être démarrées. Le serveur VM avec la base de données doit être démarré avant le serveur VM avec l’application, car le serveur d’application se connecte à la base de données. Une fois que les VM avec le serveur de base de données et le serveur d’application ont été démarrées, le serveur VM avec le serveur web peut être démarré.
Principales solutions de basculement
Les principales solutions utilisées dans les environnements virtuels sont :
- le clustering de basculement
- le basculement à l’aide de répliques de VM
Examinons chacune d’elles.
Solution 1. Clustering de basculement
A failover cluster is a group of at least two servers or nodes that are configured to take over workloads when one node is down or unavailable. Clustering is an enterprise-class automated solution that can be used for the most important, business-critical VMs. Microsoft Hyper-V offers a Failover Cluster made up of several Hyper-V hosts. VMware’s equivalent is a High Availability cluster, which is made up of ESXi hosts.
Dans le premier schéma ci-dessous, vous pouvez voir un cluster dans lequel les deux hôtes (également appelés nœuds) fonctionnent correctement. Les VM fonctionnent sur les hôtes, et les fichiers VM sont situés sur un stockage partagé accessible par les deux hôtes.
Lorsqu’un des hôtes tombe en panne, la propriété de la connexion à la VM (qui fonctionnait sur le nœud hors ligne) est transférée à un autre nœud qui est toujours en ligne. C’est le processus de basculement. Une VM hautement disponible peut nécessiter un redémarrage.
Exigences de clustering de basculement
Les exigences suivantes doivent être satisfaites pour construire un cluster de basculement :
- Le stockage partagé est connecté aux hôtes via un réseau dédié à haute vitesse avec une faible latence. Un système de fichiers en grappe doit être utilisé pour garantir que plusieurs hôtes peuvent accéder simultanément aux données situées sur le stockage.
- Les hôtes sur lesquels les machines virtuelles sont en cours d’exécution doivent avoir le même matériel ou, du moins, un matériel de la même famille. Les processeurs doivent prendre en charge les mêmes jeux d’instructions pour garantir la compatibilité des machines virtuelles afin qu’elles s’exécutent correctement après la migration d’un hôte à un autre lors de la bascule.
- A high-speed redundant network with low latency. There should be multiple, separate cluster networks, that is, a cluster must have different networks for storage, management, VM migration, connection of hosts amongst each other, etc.
Scénarios d’utilisation
Les grappes de basculement sont utilisées pour récupérer les machines virtuelles en cas de défaillance du serveur, assurant une haute disponibilité pour les machines virtuelles critiques. Si l’un des hôtes (appelés nœuds) au sein d’une grappe échoue, alors les machines virtuelles qui s’exécutaient sur l’hôte défaillant migrent (bascule) vers d’autres hôtes sains. Selon vos paramètres, les machines virtuelles qui ont été basculées peuvent être renvoyées vers l’hôte sur lequel elles étaient en cours d’exécution avant l’incident une fois que la défaillance est résolue.
Avantages
A failover cluster has advantages that provide strong protection:
- A failover cluster provides automatic VM failover. You don’t need to start the failed VMs manually on other hosts.
- Lors de la bascule, vous ne subissez quasiment aucune perte de données. Le temps d’arrêt est généralement limité au temps nécessaire pour charger la machine virtuelle, le système d’exploitation (SE) et le logiciel s’exécutant sur la machine virtuelle.
- La fonctionnalité de Tolérance aux pannes incluse dans le cluster de Haute Disponibilité VMware garantit la bascule des machines virtuelles sans temps d’arrêt et sans perte de données.
Inconvénients
A failover cluster does not protect against:
- Échec logiciel des machines virtuelles. Les bogues logiciels ou les virus peuvent provoquer un crash système dans une VM.
- Suppression accidentelle de fichiers à l’intérieur de la VM.
- Échec du stockage partagé. Le cluster échoue si le stockage partagé échoue. Le stockage partagé est un composant crucial du cluster; les disques virtuels appartenant aux VM dans un cluster sont stockés sur le stockage partagé.
- A disaster that makes the whole physical site unavailable.
Pour plus d’informations sur ce qu’est un cluster de basculement, consultez le guide complet sur le clustering VMware.
Solution 2. Basculement en utilisant des répliques de VM
Le basculement de VM reposant sur des répliques de VM peut être exécuté par des applications spécialisées, qui peuvent répliquer les VM et démarrer les répliques lorsque l’administrateur le demande. En plus du logiciel de protection des données, vous avez besoin d’hôtes ESXi ou Hyper-V (en fonction de votre environnement) qui ont été préparés à l’avance pour exécuter les répliques de VM en cas de défaillance des VM sources.
Sur le schéma ci-dessous, vous pouvez voir deux hôtes connectés l’un à l’autre via le réseau. Les VM utilisent les disques des hôtes. Les VM sources s’exécutent sur le premier hôte, et les répliques de VM, qui sont des copies exactes des VM sources à un moment donné, se trouvent sur le second hôte dans un état éteint.
Lorsqu’un hôte tombe en panne, les VM qui s’exécutaient sur cet hôte deviennent également inaccessibles. Les répliques de VM situées sur un autre hôte sont alors démarrées par l’administrateur.
Exigences de réplication de VM
Les exigences de base pour la réplication de machines virtuelles sont deux hôtes ou plus et une solution de réplication. Une machine virtuelle source s’exécutant sur le premier hôte est répliquée sur le deuxième hôte. La réplique de la machine virtuelle est située sur le deuxième hôte.
Utilisations
La bascule à l’aide de répliques de machines virtuelles peut être utilisée en cas de défaillance matérielle ou logicielle. Les défaillances des hôtes ESXi ou Hyper-V sont un exemple de défaillance matérielle. Les exemples de défaillance logicielle peuvent être des mises à jour échouées, des bogues logiciels, des attaques de virus ou la suppression accidentelle de fichiers par un utilisateur.
Avantages
Le principal avantage de la bascule de la machine virtuelle vers une réplique est la possibilité de basculer vers un site distant. Lorsqu’une réplique de machine virtuelle est créée, les données copiées à partir d’une machine virtuelle source peuvent être transmises via une connexion réseau (avec une bande passante limitée) vers un site distant. Le site distant pourrait être situé dans un bureau voisin ou à l’autre bout du monde. La réplique de la machine virtuelle peut également être située sur le site de production principal.
Inconvénients
La liste des inconvénients pour une bascule à l’aide de répliques de machines virtuelles :
- Il y a une courte période d’arrêt entre une défaillance et le démarrage de la réplique sur le deuxième hôte.
- La bascule doit être initiée manuellement.
- Les données écrites depuis la dernière réplication peuvent être perdues lors d’une bascule non planifiée. La réplication de machine virtuelle n’est souvent pas un processus en temps réel (synchrone), car la réplication synchrone place une charge significative sur les ressources. La réplication est généralement effectuée à intervalles réguliers en fonction des paramètres choisis.
- Les paramètres réseau des machines virtuelles doivent souvent être modifiés lors d’une bascule vers un autre site. Les réseaux des machines virtuelles du site distant peuvent différer de ceux du site primaire. Par conséquent, les adresses IP peuvent également être différentes et doivent être vérifiées et modifiées, ainsi que les autres paramètres réseau, lors de la bascule.
Cluster vs bascule de machine virtuelle basée sur la réplication
Bascule avec clustering | Bascule en utilisant une réplique | |
Objectif | Disponibilité élevée | Récupération après sinistre |
Protection contre | Pannes matérielles uniquement | Pannes matérielles et logicielles |
Administration | Automatiquement lancé | Lancé manuellement |
Durée d’indisponibilité (RTO) | La bascule est plus rapide, donc l’indisponibilité des machines virtuelles est courte (RTO court) | La bascule prend plus de temps, donc l’indisponibilité des machines virtuelles est plus longue |
Exigences | Plus d’exigences | Moins d’exigences |
Prix de la solution | Les solutions de clustering sont généralement plus coûteuses | Les solutions de réplication sont plus rentables |
Perte de données (RPO) | Presque aucune perte de données (RPO très faible) | La perte de données dépend de la fréquence de la réplication |
Utilisation combinée des clusters et des répliques pour la bascule VM
Les solutions de bascule de cluster et de réplication sont parfois considérées comme des alternatives, mais elles peuvent être utilisées pour se compléter. Voyons quelques exemples de la manière dont l’utilisation des deux solutions de bascule peut aider à protéger vos VM contre les pannes au niveau du serveur et du site.
- Exemple 1: Vous pouvez répliquer les VM qui s’exécutent dans un cluster vers un hôte situé sur un site distant. De plus, vous pouvez répliquer les VM qui s’exécutent dans un cluster vers un autre cluster. Ainsi, si un hôte tombe en panne, le cluster de bascule maintient ces VM en ligne. Si le site entier subit une perturbation, vous pouvez basculer vers les répliques de VM stockées sur un site distant.
- Exemple 2: Un virus endommage des fichiers à l’intérieur de certaines VM. Un cluster de bascule ne peut pas protéger contre de telles pannes. Mais si vous disposez de répliques de VM avec plusieurs points de restauration, vous pouvez restaurer chaque VM à un moment antérieur à celui où leurs fichiers ont été endommagés ou supprimés.
Utilisation de la solution NAKIVO pour la bascule automatisée des VM VMware vers la réplique
NAKIVO Backup & Replication est une solution de sauvegarde et de reprise après sinistre qui peut protéger les machines virtuelles s’exécutant au sein d’un cluster, répliquer les machines virtuelles, basculer vers des répliques et orchestrer des séquences de reprise après sinistre complexes. Les clusters ainsi que les hôtes ESXi ou Hyper-V autonomes sont pris en charge en tant que points source et de destination pour la réplication. La solution suit automatiquement l’hôte sur lequel une machine virtuelle réside afin de pouvoir répliquer cette machine virtuelle. Cela est utile car les machines virtuelles peuvent migrer d’un hôte à un autre au sein d’un cluster après des événements de basculement ou d’équilibrage de charge (un cluster est généralement configuré en conjonction avec l’équilibrage de charge). C’est pourquoi le logiciel que vous utilisez pour répliquer une machine virtuelle à partir d’un cluster doit être capable de suivre l’hôte sur lequel la machine virtuelle réside.
La solution NAKIVO peut modifier automatiquement les paramètres réseau de la machine virtuelle lors du basculement ; il suffit d’utiliser les fonctionnalités de mappage de réseau et de réadressage IP lors de la configuration d’une tâche de réplication ou de basculement.
Prenons un exemple de Basculement automatique de machine virtuelle (avec mappage de réseau et réadressage IP) dans NAKIVO Backup & Replication. Nous commencerons par créer une réplique de machine virtuelle.
Configuration de la réplication nécessaire pour le basculement de machine virtuelle
Sur le tableau de bord des tâches, cliquez sur Créer > Tâche de réplication VMware vSphere si vous avez un environnement virtuel VMware. Notez que vous pouvez créer une tâche de réplication pour une machine virtuelle Microsoft Hyper-V ou une instance Amazon EC2 de la même manière.
L’assistant de création de tâche de réplication est lancé.
- Sélectionnez les machines virtuelles que vous souhaitez répliquer. Dans cet exemple, la machine virtuelle Server2019, qui exécute Windows Server 2019 en tant que système d’exploitation invité, sera répliquée. Cliquez sur Suivant.
- Sélectionnez un hôte de destination pour exécuter la réplique de la machine virtuelle (10.10.10.90 dans notre cas). Sélectionnez le datastore monté sur l’hôte sélectionné pour le placement des fichiers de la machine virtuelle. Cliquez sur Suivant.
- Vous pouvez définir les options de mappage réseau et de réadressage IP lors de la configuration d’une tâche de réplication ou d’une tâche de basculement. Dans cette présentation, le mappage réseau et le réadressage IP seront configurés ultérieurement lors de la configuration de la tâche de basculement. Ainsi, vous pouvez ignorer cette étape pour le moment et simplement cliquer sur Suivant.
- La configuration de la réadressage IP sera expliquée lors de la configuration de la tâche de basculement de la machine virtuelle dans ce guide. Cliquez sur Suivant.
- Configurez les paramètres de rétention. N’oubliez pas que vous pouvez mettre en place la politique de rétention « grand-père-père-fils » à cette étape. Cliquez sur Suivant.
- Sélectionnez les options de tâche de réplication et cliquez sur le bouton Terminer ou sur le bouton Terminer & Exécuter. Attendez que la réplique soit créée.
Configuration de la bascule de la machine virtuelle
Maintenant que vous avez une réplique de machine virtuelle créée, vous pouvez effectuer une bascule de la machine virtuelle vers cette réplique.
Sur la page d’accueil du tableau de bord, cliquez sur Récupérer > Récupération complète VMware (bascule de la réplique de la machine virtuelle). L’assistant Nouvelle tâche de bascule s’ouvre.
- Dans le volet de gauche, sélectionnez la réplique de la machine virtuelle à utiliser pour la bascule. Dans cette procédure, la réplique Server2019, qui vient d’être créée, est sélectionnée. Dans le volet de droite, sélectionnez un point de récupération. Le dernier point de récupération est sélectionné par défaut dans la solution. Cliquez sur Suivant.
- Cartographie réseau vous aide à modifier le réseau auquel la machine virtuelle est connectée. Les hôtes ESXi source et de destination ont probablement des paramètres de commutateur virtuel différents. Étant donné qu’une réplique de VM est une copie exacte de la VM source, les réseaux virtuels auxquels la VM source est connectée sont préservés dans la réplique de VM.
Généralement, vous devriez vérifier les paramètres réseau d’une réplique de VM et changer manuellement le réseau. NAKIVO Backup & Replication peut mapper le réseau source vers un réseau de destination automatiquement. Vous devez simplement configurer la Cartographie réseau lors de la configuration de la tâche de réplication ou de basculement.
- Pour activer la Cartographie réseau, cochez la case. Si vous avez déjà créé une règle de cartographie réseau, vous pouvez cliquer sur Ajouter une correspondance existante. S’il n’y a pas de règles de cartographie réseau, cliquez sur Créer une nouvelle correspondance.
-
Pour créer une nouvelle règle de cartographie réseau, sélectionnez le réseau source et le réseau de destination. Le réseau source est le réseau auquel la VM source est connectée. Le réseau de destination (cible) est le réseau auquel la réplique de VM doit être connectée.
Remarque : Le nom du réseau de la VM n’est pas le même que l’adresse IP ou l’adresse réseau.
Cliquez sur Enregistrer pour enregistrer la règle de cartographie réseau, puis cliquez sur Suivant pour procéder à la configuration.
- Pour activer la Cartographie réseau, cochez la case. Si vous avez déjà créé une règle de cartographie réseau, vous pouvez cliquer sur Ajouter une correspondance existante. S’il n’y a pas de règles de cartographie réseau, cliquez sur Créer une nouvelle correspondance.