Unabhängig davon, wie zuverlässig Hardware und Software heute geworden sind, sind Maschinen immer noch anfällig für Ausfälle aus verschiedenen Gründen. Wenn sie abstürzen, können Systeme offline gehen und Daten können für lange Zeit nicht verfügbar sein. Und selbst wenn Systeme wieder online gebracht werden, ist die Datenwiederherstellung manchmal unmöglich und die Daten gehen unwiderruflich verloren. Der zuverlässigste Weg, um diese Risiken zu minimieren, besteht darin, einen umfassenden Notfall-Wiederherstellungsplan (Disaster Recovery, DR) zu erstellen.
A disaster recovery plan is a set of procedures that must be undertaken to restore data and workloads within set time limits. This detailed DR checklist includes mechanisms put in place in advance to prepare for different disaster scenarios.
Statistiken zeigen, dass 95% der Unternehmen weltweit beträchtliche Ressourcen in die Planung für das Schlimmste investieren, einschließlich in DR. Allerdings verwenden nur 78% von ihnen Notfall-Wiederherstellungstests, um zu überprüfen, ob ihr Plan tatsächlich die Ziele erfüllt. Lesen Sie weiter, um zu erfahren, was Notfall-Wiederherstellungstests sind und wie Sie eine DR-Teststrategie für Ihr Unternehmen entwickeln können, um Systemverfügbarkeit und Geschäftskontinuität bei jedem Vorfall sicherzustellen.
Was ist Notfall-Wiederherstellungstests?
Notfall-Wiederherstellungstests sind die Überprüfung der Schritte des DR-Plans, um sicherzustellen, dass der Plan erfolgreich umgesetzt werden kann und kritische Anwendungen und Daten nach einer Störung wiederhergestellt werden können. Der Test des Notfall-Wiederherstellungsplans zielt darauf ab, sicherzustellen, dass Geschäftsabläufe und kritische Dienste während und nach einem Vorfall aufrechterhalten werden können.
Denken Sie daran, dass ein Katastrophenwiederherstellungstestplan nicht auf die technischen Komponenten des DR-Plans beschränkt sein sollte. Es ist ebenso wichtig zu testen, ob jeder Mitarbeiter, der an der Katastrophenwiederherstellung beteiligt ist, seine Rolle versteht und Zugang zu den Ressourcen hat, die er während einer Unterbrechung benötigt, um seine Arbeit auszuführen.
Das Testen des Katastrophenwiederherstellungsplans sollte regelmäßig durchgeführt werden, am besten ein paar Mal pro Jahr. IT-Umgebungen ändern sich regelmäßig, wenn Software außer Betrieb genommen, neue Anwendungen eingeführt oder Hardware ausgetauscht wird, was wiederum entsprechende Änderungen an Ihrem DR-Plan erfordert. Der DR-Testprozess kann Teil von Wartungsroutinen und Mitarbeitertrainings sein.
Warum das Testen der Katastrophenwiederherstellung wichtig ist
Das Risiko, einen Notfallwiederherstellungsplan nicht zu testen, ist der Verlust von Daten und dem Zugriff auf Systeme. Sie können Ihr Unternehmen zwar gegen Verluste versichern, aber keine Versicherungspolice kann die verlorenen Daten oder die Auswirkungen einer längeren Ausfallzeit auf ein Unternehmen ersetzen. Der einzige Weg, um die Betriebszeit und Verfügbarkeit wirklich sicherzustellen, besteht darin, einen Notfallwiederherstellungsplan zu erstellen und regelmäßige Tests durchzuführen. Wenn Sie immer noch nicht überzeugt sind, dass es notwendig ist, den Notfallwiederherstellungsplan zu testen, hier ist eine Liste dessen, was ein DR-Test Ihnen ermöglicht, bevor ein Vorfall eintritt:
- Entdecken von Lücken oder Schwachstellen in einem DR-Plan
- Sicherstellen, dass Sie die richtige Abfolge von Aktionen während der Wiederherstellung haben
- Überprüfen, ob die Wiederherstellungsziele realistisch sind und erreicht werden können
- Den Datenverlust minimieren
- Durchführen von Aktionen des DR-Teams und Sicherstellen, dass jedes Mitglied seine Rolle versteht
- Updates und Fixes einführen, bevor es zu spät ist
Komponenten eines Notfallwiederherstellungstestprozesses
A DR test should be planned to ensure that it brings results and helps improve DR readiness. This means that disaster recovery test objectives should be clear, and you should have a specified timetable for how often to conduct tests, the criteria for success, evaluation of results, and steps to address gaps and any DR failures. Let’s go over these components in more detail.
Festlegen des DR-Testumfangs
Der DR-Testumfang umfasst eine Reihe von Annahmen und Erwartungen, die während des Testprozesses erfüllt werden sollten. Das Festlegen des Testumfangs sollte Folgendes umfassen:
- Identifizierung der Systeme und Funktionen, die im DR-Test enthalten sein werden
- Festlegen, welche Art von Notfallwiederherstellungsprozess getestet wird: Wiederherstellung vollständiger Maschinen aus Backups, Failover zu einem DR-Standort usw.
- Festlegen von Ausnahmen und Einschränkungen im Voraus, da einige Komponenten Ihres DR-Plans möglicherweise nicht wie geplant ausgeführt werden
- Spezifizieren der beteiligten Abteilungen und Mitarbeiter im DR-Testprozess
- Definieren der Szenarien, die getestet werden sollen: Ausfall der primären Website, Ransomware-Angriff, Verbindungsverlust, Server-/Datenbankausfall, usw.
Überprüfung des Notfallwiederherstellungsplans
Vor dem Testen sollten Sie den DR-Plan überprüfen. DR-Tests sollten organisiert durchgeführt werden, indem sie sich auf die Richtlinien und Praktiken der Organisation konzentrieren. Das Notfallwiederherstellungsteam sollte also mit dem Senior Management zusammentreffen, um den bestehenden DR-Plan zu überprüfen und festzustellen, ob Änderungen oder Aktualisierungen auf der Grundlage des aktuellen Unternehmenszustands umgesetzt werden sollten. Dazu gehören Faktoren wie die Einführung neuer Hardware- oder Softwareprodukte, Geschäftserweiterungen, Budgetkürzungen, Mitarbeiterfluktuation, usw.
DR-Testfrequenz
Da sich die IT-Umgebungen ständig weiterentwickeln, ist die Festlegung der Überprüfungshäufigkeit entscheidend, um Ihren Notfallwiederherstellungsplan ständig auf dem neuesten Stand zu halten. Einige Organisationen überprüfen und aktualisieren ihre DR-Pläne einmal pro Jahr. Die effizienteste Strategie besteht jedoch darin, Ihren DR-Plan (und das erneute Testen) zu aktualisieren, wann immer geschäftskritische Komponenten Ihrer Organisation Änderungen durchlaufen. Obwohl Notfallwiederherstellungstests zeitaufwändig und kostspielig sein können, sollten Sie Ihren Testplan auf der Grundlage der Geschäftsbedürfnisse und Ressourcen erstellen und dabei den Umfang der DR-Prozesse berücksichtigen.
Testerfolgskriterien
Sie müssen die Kriterien festlegen, die bestimmen, ob Ihre VM-Notfallwiederherstellungstests erfolgreich sind oder nicht. Idealerweise kann ein VM-DR-Test als bestanden betrachtet werden,
Jedoch kann ein Desaster-Recovery-Test auch dann als erfolgreich angesehen werden, wenn ein DR-Plan den Test nicht bestanden hat. Dieses Szenario ermöglicht es Ihnen, Mängel in einem DR-Plan vor einem tatsächlichen Desaster zu identifizieren und sie in der nächsten Iteration des Plans zu beheben. Im Wesentlichen werden die Erfolgskriterien für den Test auf der Grundlage vorher festgelegter Erwartungen definiert, die im Desaster-Recovery-Testplan klar ausgedrückt werden sollten, um jegliche Verwirrung zu vermeiden.
Bewertung der Testergebnisse
Die Ergebnisse eines VM-Desaster-Recovery-Testprozesses geben einen allgemeinen Überblick über die derzeit im Unternehmen verwendeten DR-Strategien. Das Wiederherstellungsteam kann die Testergebnisse bewerten und auf der Grundlage der identifizierten Probleme Verbesserungen oder Anpassungen für den DR-Plan entwickeln.
Bei der Bewertung der DR-Testergebnisse sollten auch folgende Metriken berücksichtigt werden:
- Wie viel Zeit verging, bevor missionkritische Aktivitäten wiederhergestellt wurden
- Wie gut jeder Schritt des Plans ausgeführt wurde (ob Fehler und Verzögerungen auftraten)
- Wie viele Operationen während des DR-Testprozesses erfolgreich abgeschlossen wurden
Änderungen und Updates sollten vorgenommen und getestet werden, um den DR-Plan zu verbessern. Das Ziel besteht darin, einen effektiveren und besser beherrschbaren Wiederherstellungsprozess bereitzustellen.
Nachtestüberprüfung des DR-Plans
Nachdem ein Notfallwiederherstellungsplan im Testmodus ausgeführt wurde, ist es ratsam, Ihren DR-Plan erneut zu überprüfen. Stärken und Schwächen sowie etwaige unerwartete Ergebnisse sollten während des Testprozesses der Notfallwiederherstellung erfasst und ihre Auswirkungen auf die Geschäftskontinuität gemessen werden. Dies kann Ihre DR-Strategien erheblich verbessern und die Gesamtleistung steigern. Schritte zur Behebung von Lücken und Fehlern sollten ausführlich beschrieben und der nächsten Iteration des DR-Plans hinzugefügt werden.
Faktoren, die vor dem Testen des Notfallwiederherstellungsplans berücksichtigt werden sollten
- Anzahl der Personen im DR-Team: Es sollten mindestens zwei Personen in einem Notfallwiederherstellungsteam sein, um das Problem eines „Single Point of Failure“ zu vermeiden. Mit mehreren Teammitgliedern, falls eine Person während eines Notfalls nicht erreichbar ist, können Sie sicher sein, dass es einen Ersatz mit dem erforderlichen Wissen und Zugang zum DR-Standort gibt.
- Zeitpunkt für das Testen der Notfallwiederherstellung: Im Allgemeinen wird das DR-Testing außerhalb der Arbeitszeiten durchgeführt, da der Prozess zeitaufwändig ist und den Geschäftsbetrieb stören oder die Gesamtleistung beeinträchtigen könnte. Die Testergebnisse könnten jedoch nicht darauf hindeuten, wie der Notfallwiederherstellungsplan unter tatsächlichen Arbeitsbedingungen funktionieren würde. Das Testen der Komponenten eines VM-DR-Plans isoliert während der Arbeitszeiten könnte eine ideale Lösung sein. Dies hilft, das Risiko einer Systemüberlastung zu reduzieren, das vollständiges Testen darstellt.
- Änderungen im Team oder in der IT-Infrastruktur: Bevor Sie den Test des Notfallwiederherstellungsplans durchführen, sollten Sie die verschiedenen Faktoren berücksichtigen, die Ihren DR-Plan unvollständig und veraltet machen könnten. Wie oben erwähnt, können diese Faktoren neue Infrastrukturkomponenten, Personalwechsel und andere Dinge umfassen. Informieren Sie das DR-Team über neue Änderungen in der Umgebung und senden Sie kurze Memos, um das Personal über die neuesten Updates zu informieren.
Methoden zum Testen der Notfallwiederherstellung
In diesem Abschnitt behandeln wir die vier gängigsten Methoden zum Testen der Notfallwiederherstellung. Überlegen Sie genau, bevor Sie sich für eine Methode entscheiden, welche den richtigen Ansatz für Ihre Organisation bietet oder ob eine Kombination dieser Ansätze verwendet werden kann.
Checklisten-Test
A checklist test of a disaster recovery plan involves reviewing the list of requirements and conditions that must be met. This review is a great starting point as it is the most basic option and involves analyzing the current plan and looking over every point in order to spot the outdated or missing parts. This means verifying, for example, that the backup site is of sufficient size, that the recovery team is notified of the latest updates, that the data protection solution is running, etc.
Mit dieser DR-Testmethode kann das Wiederherstellungsteam schnell den DR-Plan überprüfen, sicherstellen, dass jede Komponente vorhanden ist, und fehlende Komponenten in der DR-Strategie identifizieren. Dieses Verfahren kann in minimaler Zeit und ohne starkes Personalengagement durchgeführt werden.
Durchlauf-DR-Test
Ziel dieser Strategie ist es, jeden Schritt eines VM-Notfallwiederherstellungsplans mündlich durchzugehen und Probleme und Mängel zu identifizieren. Hier nehmen alle Mitglieder eines Wiederherstellungsteams an der Überprüfung und Diskussion des DR-Plans teil und entwickeln Empfehlungen.
Es ist wichtig sicherzustellen, dass jeder ein starkes Verständnis des Plans hat und sich seiner Verantwortlichkeiten während eines DR-Ereignisses bewusst ist. Diese Methode beinhaltet nur eine mündliche Diskussion des DR-Prozesses. Die technologischen Aspekte Ihres DR-Plans werden im Durchlauftest nicht tatsächlich getestet oder genehmigt.
Tisch-/Simulation-DR-Test
Für einen Tischtest durchläuft die Organisation ein simuliertes Katastrophenszenario, um festzustellen, ob ein DR-Plan angemessen ist und die definierten Ziele erreicht werden können. Diese DR-Testmethode kann als Erweiterung des Durchgangstests betrachtet werden. Alle Teammitglieder werden mit verschiedenen Katastrophenszenarien konfrontiert, die sie durch Diskussion darüber, wie sie sich in den jeweiligen Situationen verhalten würden, überprüfen. Dies ermöglicht es Ihnen, die Einsatzbereitschaft Ihres Personals in einer realistischeren Umgebung zu testen und zu überprüfen, ob Ihr Katastrophenwiederherstellungsplan mit unerwarteten Problemen umgehen kann.
- Durchspielen am Tisch. Das DR-Team führt einen Plan-Spaziergang schrittweise durch, als ob eine echte Katastrophe eingetreten wäre. Diese Methode zur Katastrophenwiederherstellungstests hilft, potenzielle blinde Flecken und versteckte Probleme zu identifizieren.
- Szenariosimulation. Diese Methode beinhaltet die Ausführung des DR-Plans in einer Testumgebung ohne Unterbrechung des Produktionsablaufs. Die Simulation wird gemäß spezifischer Wiederherstellungsszenarien durchgeführt.
- Vollständige Katastrophenwiederherstellungssimulation. Diese DR-Testmethode ähnelt der oben beschriebenen Simulation, aber dieses Mal umfasst das Szenario den totalen Ausfall des Betriebs an Ihrem Hauptstandort. Die Methode beinhaltet den Versuch einer vollständigen Wiederherstellung an einem Standort außerhalb des Hauptstandorts.
Parallele Tests
Paralleles Testen ermöglicht es Ihnen, die Funktionalität Ihrer Wiederherstellungssysteme zu überprüfen, um festzustellen, ob sie Geschäftsabläufe ausführen und kritische Prozesse sichern können. Die primären Systeme sind nicht in den Testprozess für die Katastrophenwiederherstellung einbezogen, da von ihnen erwartet wird, dass sie die volle Produktionslast unterstützen. Dies ist eine sichere und nicht störende Möglichkeit, technische Systeme zu testen.
Vollständiges Unterbrechungstesten
A full-interruption DR test provides thorough testing of your VM DR plan. In this case, your DR site assumes the full production workload and the primary site is shut down. The goal is to recover as quickly as possible using the corporate disaster recovery plan. The execution of a full-interruption test should be well thought out as normal operations can be disrupted and it is quite costly.
Jeder der Wiederherstellungsprozesse sollte dokumentiert werden. Identifizieren Sie alle Probleme und Bedenken während der Ausführung des DR-Tests, um sie später zu behandeln. Das Handeln des Wiederherstellungsteams sollte genau beobachtet werden, um mögliche Lücken in Ihrem VM-DR-Plan zu identifizieren. Vollständiges Unterbrechungstesten ist auch eine geeignete Methode für das Katastrophenwiederherstellungstesten, um festzustellen, ob Ihre DR-Ziele akzeptabel und erreichbar sind.
Sie könnten in Betracht ziehen, den vollständigen Unterbrechungstest ohne vorherige Benachrichtigung Ihrer Mitarbeiter durchzuführen. Dies ermöglicht es Ihnen, die Einsatzbereitschaft Ihres Teams im Falle einer Katastrophe genauer zu bewerten.
Nützliche Tipps für das Katastrophenwiederherstellungstesten
Das Testen eines DR-Plans ist eine wichtige Aufgabe, die manchmal überwältigend erscheinen kann. Die folgenden DR-Testtipps können Ihnen Zeit sparen und Stress reduzieren:
- Nach der Installation neuer Hardware- oder Softwareprodukte sollten Sie diese sofort testen, um ihre Funktionalität und Integrität zu überprüfen. Dies hilft Ihnen auch dabei, die RTO des Produkts zu ermitteln und zu erfahren, wie es sich während der DR-Verfahren verhalten könnte.
- Führen Sie vor dem Entwurf Ihres DR-Plans eine Risikoanalyse (RA) und eine Business-Impact-Analyse (BIA) durch. Überprüfen Sie die Ergebnisse dieser Analysen ständig, und wenn Änderungen vorgenommen werden, überlegen Sie, wie sie sich auf Ihre DR-Strategie auswirken sollten.
- Tests sollten unter Bedingungen durchgeführt werden, die einem DR-Szenario so ähnlich wie möglich sind. Durch die Simulation eines realen Katastrophenszenarios können Sie sehen, wie gut Mitarbeiter ihre Aufgaben unter DR-Bedingungen erfüllen. Dies hilft auch, den Stress bei Ihren Mitarbeitern zu reduzieren, da sie sich an verschiedene DR-Szenarien gewöhnen und lernen, was von ihnen erwartet wird.
- Laden Sie unabhängige Beobachter ein, um Ihren DR-Plan zu überprüfen und den Testprozess zu überwachen. Dieser Ansatz stellt sicher, dass keine Abkürzungen von Mitarbeitern genommen werden, um die Tests schnell abzuschließen. Darüber hinaus können unabhängige Beobachter dann helfen, einen DR-Plan neu zu schreiben und zu verbessern, indem sie oft Probleme identifizieren, die für diejenigen innerhalb der Organisation nicht sichtbar sind.
- Halten Sie eine vollständige Liste aller Anwendungen in Ihrer Infrastruktur bereit. Diese Liste sollte die Details jeder Anwendung, ihre Konfigurationen, die Kontaktdaten der Anwendungseigentümer und Ihre Vertrags-/Lizenzdetails enthalten.
- Zu Beginn sollten DR-Tests in Teilen und nach den Geschäftszeiten durchgeführt werden, um das System nicht zu überlasten. Nach Identifizierung etwaiger Mängel und Verbesserung des Plans entsprechend können Sie weitere vollständige Tests während der Geschäftszeiten in Betracht ziehen.
Katastrophenwiederherstellung mit NAKIVO Backup & Replication
NAKIVO Backup & Replication ist eine zuverlässige Backup- und Disaster-Recovery-Lösung. Die Lösung ermöglicht es Ihnen, Backup-, Replikations- und Disaster-Recovery-Prozesse zu automatisieren und gleichzeitig die Datenintegrität über verschiedene Plattformen (physisch, virtuell oder Cloud) sicherzustellen. Die NAKIVO-Lösung enthält Funktionen für VM-Replikation, VM-Failover, Failback und Site Recovery für die Katastrophenwiederherstellung. Darüber hinaus können Sie eine Katastrophenwiederherstellungssequenz testen, um sicherzustellen, dass alles korrekt konfiguriert ist.
Ausführen von Site Recovery-Jobs im Testmodus
NAKIVO Backup & Replication ermöglicht es Ihnen, Site-Recovery-Jobs im Testmodus auszuführen, um zu überprüfen, ob alle Systemkomponenten während eines Katastrophenwiederherstellungsvorgangs problemlos wiederhergestellt werden können und die festgelegten DR-Ziele erreicht werden können. Dieser Test unterbricht keine Produktionsworkloads. Ein Site-Recovery-Job im Testmodus kann sowohl geplant als auch auf Anfrage ausgeführt werden.
Der folgende Durchlauf zeigt Ihnen, wie Sie einen Site-Recovery-Job manuell im Testmodus ausführen können. Beachten Sie, dass ein Site-Recovery-Job zuerst konfiguriert werden muss.
- Im Dashboard für Aufträge wählen Sie einen Site-Recovery-Job aus und klicken dann auf die Schaltfläche Auftrag ausführen. Im Dropdown-Menü erhalten Sie zwei Optionen. Klicken Sie auf Test für Site-Recovery-Job.
- In dem geöffneten Dialogfeld können Sie Ihre RTO-Metriken konfigurieren. Definieren Sie die maximal zulässige Zeit, die Ihr Site-Recovery-Job benötigen darf, um abgeschlossen zu werden. Wenn der Testlauf den von Ihnen eingegebenen RTO-Wert überschreitet, gilt der Test als fehlgeschlagen. Sie können diese Option auch deaktivieren.
- Zum Schluss klicken Sie auf Test, um den Job auszuführen.
Optionen für den Testzeitplan
Optionen für Testplan
Sie können auch Testplan-Optionen beim Konfigurieren einer Site Recovery-Aufgabe festlegen. Diese Optionen funktionieren, wenn Sie diese Aufgabe im Testmodus ausführen.
E-Mail-Bericht
Wenn diese Option aktiviert ist, erhalten ausgewählte Empfänger einen Testbericht jedes Mal, wenn die Aufgabe abgeschlossen ist. Sie müssen E-Mail-Benachrichtigungseinstellungen auf der Registerkarte 5. Optionen konfigurieren, bevor Sie Fertigstellen klicken.
Sie können auch direkt aus einem Web-Browser einen Bericht als PDF- oder CSV-Datei herunterladen. Klicken Sie mit der rechten Maustaste auf eine Site Recovery-Aufgabe und wählen Sie Site Recovery-Aufgabenbericht aus.
Source:
https://www.nakivo.com/blog/disaster-recovery-testing-top-reasons/