包括為最壞情況做好準備的全面災難恢復(DR)計劃是減輕這些風險的最可靠方式。
A disaster recovery plan is a set of procedures that must be undertaken to restore data and workloads within set time limits. This detailed DR checklist includes mechanisms put in place in advance to prepare for different disaster scenarios.
統計數據顯示,全球95%的公司投入了大量資源來規劃最壞情況,包括災難恢復。然而,只有78%的公司進行災難恢復測試以驗證其計劃是否真正達到目標。繼續閱讀,了解災難恢復測試是什麼以及如何為您的組織制定DR測試策略,以確保系統在任何事件中都能保持可用性和業務連續性。
什麼是災難恢復測試?
災難恢復測試是驗證DR計劃步驟的過程,以確保計劃可以成功實施,並且在中斷後可以恢復關鍵應用程序和數據。測試災難恢復計劃的目的是確保在事故期間和事故後,業務運營和關鍵服務能夠得以維持。
最も包括的な形式の災害復旧テストは、ITの障害またはその他のビジネスの中断をシミュレートして、設置されたDR計画を評価することを含みます。主な災害復旧テストの目的は、災害復旧計画で設定された復旧時間目標(RTO)および復旧ポイント目標(RPO)を満たすことができるかどうかを確認することです。各アプリケーションおよびVMについてRPOとRTOを理解し、設定する必要があります。
DRテストは、インフラストラクチャの一部が利用できなくなった場合にシステムがどのように振る舞うかについての洞察も提供します。この情報は、実際の中断が発生する前に、組織のDR計画を改善し、弱点を修正するのに役立ちます。
災害復旧計画のテストは、定期的に実施する必要があります。できれば、年に数回行うことが望ましいです。IT環境は定期的に変化し、ソフトウェアが廃止されたり、新しいアプリケーションが導入されたり、ハードウェアが交換されたりするため、それに応じてDR計画を適切に修正する必要があります。DRテストプロセスは、メンテナンスルーチンやスタッフのトレーニングの一部になる可能性があります。
なぜ災害復旧テストが重要なのか
災害復旧計画をテストしないリスクは、データの損失とシステムへのアクセスの喪失です。ビジネスの損失に対して保険をかけることができますが、いかなる保険ポリシーもインシデントの結果として失われたデータやビジネスへの長期間のダウンタイムの影響を置き換えることはできません。アップタイムと可用性を真に確保する唯一の方法は、災害復旧計画を作成し、定期的なテストを実施することです。災害復旧計画のテストが必要であるとまだ納得していない場合は、インシデントが発生する前にDRテストがどのような成果をもたらすかについてのリストがあります:
- DR計画のギャップや欠陥を発見
- 回復中の適切なアクションのシーケンスを確認
- 回復目標が現実的であり、達成可能であることを検証
- データ損失を最小限に抑える
- DRチームのアクションを実行し、各メンバーが自分の役割を理解していることを確認
- 遅すぎる前に更新と修正を導入
災害復旧テストプロセスの構成要素
A DR test should be planned to ensure that it brings results and helps improve DR readiness. This means that disaster recovery test objectives should be clear, and you should have a specified timetable for how often to conduct tests, the criteria for success, evaluation of results, and steps to address gaps and any DR failures. Let’s go over these components in more detail.
DRテストの範囲を設定
DRテストの範囲は、テストプロセス中に満たすべき仮定と期待値のセットを含みます。テストの範囲を設定するには、次のことが含まれる必要があります:
- DRテストに含まれるシステムと機能を特定する
- テストされる災害復旧プロセスの種類を定義する:バックアップからの完全なマシンの回復、DRサイトへのフェイルオーバーなど
- あらかじめ例外と制限を設定する。なぜなら、DR計画の一部が計画通りに実行されない場合があるからです
- DRテストプロセスに含まれる部門とスタッフを特定する
- テストされるシナリオを定義する: プライマリサイトの障害、ランサムウェア攻撃、接続喪失、サーバー/データベースの障害など。
災害復旧計画のレビュー
テストの前に、DR計画を確認する必要があります。DRテストは、組織の方針と実践に焦点を当てて、組織的な方法で実施する必要があります。したがって、災害復旧チームは、既存のDR計画をレビューし、ビジネスの現状に基づいて実施すべき変更や更新を決定するために、シニアマネジメントと会合を開催する必要があります。これには、新しいハードウェアやソフトウェア製品の導入、事業の拡大、予算の削減、スタッフの離職などの要因が含まれます。
DRテストの頻度
現在のIT環境が非常に動的であるため、レビュー頻度を決定することは、災害復旧計画を常に最新の状態に保つために重要です。一部の組織は、年に1回DR計画を見直し、更新します。しかし、最も効率的な戦略は、組織のミッションクリティカルなコンポーネントが変更された場合に、DR計画を更新(および再テスト)することです。災害復旧テストは時間と費用がかかる場合がありますが、ビジネスのニーズとリソースを考慮して、DRプロセスの範囲を検討して、テストスケジュールを作成する必要があります。
テストの成功基準
VM災害復旧テストが成功したかどうかを判断する基準を設定する必要があります。理想的には、VM DRテストは、DR計画が有効であることが証明されたときに合格と見なされます。
ただし、災害復旧テストは、DR計画がテストに合格しなかった場合でも成功と見なすことができます。このシナリオでは、実際の災害が発生する前にDR計画の欠陥を特定し、計画の次のイテレーションでそれらを解決することができます。基本的に、テストの成功基準は、予め定められた期待に基づいて定義されるべきであり、これらは混乱を避けるために災害復旧テスト計画で明確に表現されるべきです。
テスト結果の評価
VM災害復旧テストプロセスの結果は、現在会社で使用されているDR戦略の概要を提供します。回復チームはテスト結果を評価し、特定された問題に基づいてDR計画の改善または調整を考え出すことができます。
DRテスト結果を評価する際には、以下の指標も考慮すべきです。
- ミッションクリティカルなアクティビティが復旧されるまでに経過した時間
- 計画の各段階がどのように実行されたか(エラーや遅延が発生したかどうか)
- DRテストプロセス中に成功裏に完了した操作の数
DR計画を改善するために変更と更新を行い、テストを実施する必要があります。目標は、より効果的かつ管理しやすい回復プロセスを提供することです。
DR計画のテスト後のレビュー
災害復旧計画をテストモードで実行した後、再度DR計画を確認することが推奨されます。災害復旧テストプロセス中に記録された強みや弱み、および予期せぬ結果は、事業の継続性に与える影響を測定するべきです。これにより、災害復旧戦略を大幅に改善し、全体的なパフォーマンスを向上させることができます。ギャップや失敗を解決するための手順は詳細に記述し、次回のDR計画に追加する必要があります。
災害復旧計画をテストする前に考慮すべき要因
- DRチームの人数:少なくとも2人の災害復旧チームが必要です。これにより、「単一障害点」の問題を回避できます。複数のチームメンバーがいる場合、災害時に連絡が取れない場合でも、必要な知識とDRサイトへのアクセスを持つ代替者がいることを確認できます。
- 災害復旧テストに選択された時間帯:一般的に、災害復旧テストは勤務時間外に実行されます。プロセスが時間を要し、ビジネスの運用を中断したり全体的なパフォーマンスに影響を与える可能性があるためです。ただし、これらのテスト結果は、実際の勤務条件下での災害復旧計画の機能を示すものではない可能性があります。勤務時間中にVM DR計画のコンポーネントを個別にテストすることが理想的な解決策となります。これにより、フルテストによって引き起こされるシステムの過負荷のリスクが軽減されます。
- チームやITインフラの変更:災害復旧計画のテストを行う前に、DR計画が不完全で時代遅れになる可能性のあるさまざまな要因を考慮してください。前述のように、これらの要因には新しいインフラ構成要素、スタッフの変更などが含まれる可能性があります。DRチームに環境の新しい変更を周知させ、最新のアップデートをスタッフに通知するための簡潔なメモを送信してください。
災害復旧テスト方法
このセクションでは、最も一般的な災害復旧テスト方法の4つをカバーしています。これらのアプローチのうちどれが組織に最適なアプローチを提供するか、またはこれらのアプローチの組み合わせが使用できるかを決定する前に、注意深く検討してください。
チェックリストテスト
A checklist test of a disaster recovery plan involves reviewing the list of requirements and conditions that must be met. This review is a great starting point as it is the most basic option and involves analyzing the current plan and looking over every point in order to spot the outdated or missing parts. This means verifying, for example, that the backup site is of sufficient size, that the recovery team is notified of the latest updates, that the data protection solution is running, etc.
このDRテスト方法を使用することで、リカバリーチームは素早くDR計画をレビューし、すべての構成要素が揃っていることを確認し、DR戦略の不足している部分を特定できます。この手順は、最小限の時間とスタッフの関与なしで実施することができます。
ウォークスルーDRテスト
この戦略の目的は、VM災害復旧計画の各ステップを口頭で実施し、問題や欠陥を特定することです。ここでは、リカバリーチームのすべてのメンバーがDR計画のレビューと議論に参加し、推奨事項を提供します。
計画についての強力な理解をすべての人が持ち、DRイベント中の責任を認識していることが重要です。この方法は、DRプロセスの口頭での議論のみを含みます。ウォークスルー テストでは、DR計画の技術的な側面は実際にはテストまたは承認されません。
テーブルトップ/シミュレーションDRテスト
テーブルトップテストでは、組織はシミュレートされた災害シナリオを通じて、DR計画が適切であり、定義された目標が達成できるかを確認します。このDRテスト方法は、ウォークスルーテストの拡張と考えることができます。すべてのチームメンバーは、さまざまな災害シナリオが提示され、それに対してどのように行動するかを議論して確認します。これにより、より現実的な状況でスタッフの準備状況をテストし、災害復旧計画が予期しない問題に対処できるかどうかを確認できます。
- テーブルトップランスルー。DRチームは、実際の災害が発生したかのように、計画をステップバイステップでウォークスルーします。この災害復旧テスト方法は、潜在的な盲点や隠れた問題を特定するのに役立ちます。
- シナリオシミュレーション。この方法では、本番ワークフローに影響を与えずに、テスト環境でDR計画を実行します。シミュレーションは、特定の復旧シナリオに従って実行されます。
- 完全な災害復旧シミュレーション。このDRテスト方法は、上記で説明したシミュレーションと類似していますが、今回のシナリオにはメインサイトでの業務の完全な停止が含まれます。この方法では、オフサイトの場所で完全な復旧を試みます。
並行テスト
パラレルテストは、リカバリシステムの機能をテストし、ビジネスオペレーションを実行し、重要なプロセスを保護できるかどうかを確認することができます。主要なシステムは災害復旧テストプロセスに含まれていません。これらのシステムは、完全なプロダクションワークロードをサポートすることが期待されています。これは、技術システムをテストする安全で非中断的な方法です。
A full-interruption DR test provides thorough testing of your VM DR plan. In this case, your DR site assumes the full production workload and the primary site is shut down. The goal is to recover as quickly as possible using the corporate disaster recovery plan. The execution of a full-interruption test should be well thought out as normal operations can be disrupted and it is quite costly.
完全中断テスト
すべてのリカバリプロセスは文書化される必要があります。DRテストの実行中に発生したすべての問題と懸念点を特定し、後でそれらを対処します。リカバリチームの行動を密に観察し、VM DRプランに潜在的なギャップがないかを特定します。完全中断テストは、DR目標が受け入れ可能かつ達成可能かを確認するための適切な災害復旧テスト方法です。
災害復旧テストのための有用なヒント
DRプランのテストは、時折圧倒されることがある重要なタスクです。以下のDRテストのヒントが時間を節約し、ストレスを軽減するのに役立ちます。
- 新しいハードウェアやソフトウェア製品をインストールした後、すぐにそれらをテストして機能性と完全性を検証します。これにより、製品のRTOを見つけることができ、DR手順中に製品がどのように機能するかを学ぶのに役立ちます。
- リスク分析(RA)とビジネス影響分析(BIA)を行い、DR計画を設計する前にそれらの分析結果を常に見直し、変更があれば、それらがDR戦略にどのように反映されるかを考えてください。
- テストは、DRシナリオにできるだけ類似した状況で実行する必要があります。実生活の災害シナリオをシミュレートすることで、従業員がDRの状況下での職務をどのように遂行するかを見ることができます。また、従業員がさまざまなDRシナリオに慣れ、どのような行動が期待されているかを学ぶため、スタッフのストレスを軽減するのにも役立ちます。
- 独立した観察者を招待して、DR計画を見直し、テストプロセスを監視します。このアプローチにより、従業員がテストを迅速に完了するための近道を取らないように保証されます。さらに、独立した観察者はDR計画を書き直し、改善し、しばしば組織内では見えない問題を特定するのに役立ちます。
- インフラストラクチャー内のすべてのアプリケーションの完全なリストを持っています。このリストには、各アプリケーションの詳細、構成、アプリケーション所有者の連絡先、および契約/ライセンスの詳細が含まれている必要があります。
- 最初の段階では、DRテストは部分的に実施し、業務時間外に実施する必要があります。システムに負荷をかけないようにします。不備を特定し、それに応じて計画を改善した後、業務時間中にさらにフルテストを実施することを検討できます。
NAKIVO Backup & Replicationによる災害復旧
NAKIVO Backup&Replicationは信頼性の高いバックアップおよび災害復旧ソリューションです。このソリューションでは、さまざまなプラットフォーム(物理的、仮想的、またはクラウド)間でデータの整合性を確保しながら、バックアップ、レプリケーション、および災害復旧プロセスを自動化できます。NAKIVOソリューションには、災害復旧のためのVMレプリケーション、VMフェイルオーバー、フェイルバック、およびSite Recovery機能が含まれています。さらに、災害復旧シーケンスをテストして、すべてが正しく構成されていることを確認できます。
テストモードでのSite Recoveryジョブの実行
NAKIVO Backup&Replicationを使用して、テストモードでサイトリカバリジョブを実行し、災害復旧イベント中にすべてのシステムコンポーネントが簡単に復元でき、指定されたDR目標を満たすことができるかどうかを確認できます。このテストはプロダクションのワークロードに影響しません。テストモードのSite Recoveryジョブは、スケジュールされるだけでなく、必要に応じて実行できます。
次の手順に従って、テストモードでサイトリカバリジョブを手動で実行する方法を説明します。サイトリカバリジョブを構成する必要があることに注意してください。
- ダッシュボードでジョブを選択し、ジョブ実行ボタンをクリックします。ドロップダウンメニューには2つのオプションが表示されます。 テストサイトリカバリジョブをクリックします。
- 起動されるダイアログボックスで、RTOメトリックスを設定できます。サイトリカバリジョブの完了に許容される最大時間を定義します。テスト実行が入力したRTO値を超える場合、テストは失敗と見なされます。このオプションを無効にすることもできます。
- 最後に、テストをクリックしてジョブを実行します。
テストスケジュールのオプション
テストスケジュールのオプション
サイトリカバリージョブの設定時には、テストスケジュールのオプションも設定できます。これらのオプションは、このジョブをテストモードで実行する場合に機能します。
メールレポート
このオプションを有効にすると、選択した受信者はジョブが完了するたびにテストレポートを受け取ります。[完了] をクリックする前に、5. オプション タブでメール通知の設定を行う必要があります。Finish。
また、Webブラウザから直接PDFまたはCSVファイルとしてレポートをダウンロードすることもできます。サイトリカバリージョブを右クリックし、Site Recovery Job Report を選択してください。
Source:
https://www.nakivo.com/blog/disaster-recovery-testing-top-reasons/