لا يهم مدى موثوقية الأجهزة والبرمجيات التي أصبحت عليها اليوم، فإن الآلات ما زالت عرضة للفشل لأسباب مختلفة. عند حدوث الاختلال، يمكن أن تصبح الأنظمة غير متصلة ويمكن أن تصبح البيانات غير متوفرة لفترات طويلة من الزمن. وحتى عندما يتم إعادة تشغيل الأنظمة، قد يكون من المستحيل في بعض الأحيان استعادة البيانات وقد تفقد نهائيا. أكثر الطرق موثوقية للتخفيف من هذه المخاطر هي وضع خطة شاملة للتعافي من الكوارث (DR).
A disaster recovery plan is a set of procedures that must be undertaken to restore data and workloads within set time limits. This detailed DR checklist includes mechanisms put in place in advance to prepare for different disaster scenarios.
تشير الإحصائيات إلى أن 95% من الشركات في جميع أنحاء العالم تستثمر موارد كبيرة في التخطيط لأسوأ الظروف، بما في ذلك في مجال DR. ومع ذلك، يستخدم فقط 78% منها اختبار التعافي من الكوارث للتحقق من أن خطتها تلبي فعلا الأهداف. تابع القراءة لمعرفة ما هو اختبار التعافي من الكوارث وكيفية وضع استراتيجية اختبار DR لمؤسستك لضمان توفر النظام واستمرارية العمل من خلال أي حادث.
ما هو اختبار التعافي من الكوارث؟
اختبار التعافي من الكوارث هو التحقق من خطوات خطة DR لضمان أن يمكن تنفيذ الخطة بنجاح ويمكن استعادة التطبيقات الحرجة والبيانات بعد انقطاع. يهدف اختبار خطة التعافي من الكوارث إلى ضمان أن يمكن الحفاظ على العمليات التجارية والخدمات الحرجة أثناء وبعد الحادث.
اختبار استعادة الكوارث في أشكاله الشاملة ينطوي على محاكاة فشل تكنولوجيا المعلومات أو أي نوع آخر من انقطاع العمل لتقييم خطة استعادة الكوارث المعتمدة. الأهداف الرئيسية لاختبار استعادة الكوارث هي التحقق مما إذا كانت المؤسسة قادرة على تحقيق أهداف زمن الاستعادة (RTO) وأهداف نقطة الاستعادة (RPO) المحددة في خطة استعادة الكوارث. يجب عليك فهم RPO و RTO وتحديدهم لكل تطبيق وآلة افتراضية. يوفر اختبار استعادة الكوارث أيضًا نظرة على سلوك النظام في حالة عدم توفر أي جزء من البنية التحتية الخاصة بك. يمكن أن تساعد هذه المعلومات في تحسين خطة استعادة الكوارث لمؤسستك وإصلاح أي وصلات ضعيفة قبل حدوث انقطاع حقيقي.
يجب أن لا يقتصر خطة اختبار استعادة الكوارث على المكونات التقنية لخطة استعادة الكوارث. من المهم بنفس القدر اختبار وظيفة كل موظف مشارك في استعادة الكوارث وضمان توفر الموارد اللازمة لأداء عملهم خلال فترة الانقطاع.
يجب إجراء اختبارات استعادة الكوارث بانتظام، ويفضل عدة مرات في السنة. تتغير بيئات تكنولوجيا المعلومات بانتظام مع إيقاف البرامج، وإدخال التطبيقات الجديدة، أو استبدال الأجهزة، مما يتطلب التعديلات المناسبة على خطة استعادة الكوارث. يمكن أن يكون عملية اختبار استعادة الكوارث جزءًا من الروتين الدوري للصيانة وتدريب الموظفين.
لماذا يهم اختبار استعادة الكوارث؟
مخاطر عدم اختبار خطة الاستعادة من الكوارث تشمل فقدان البيانات والوصول إلى الأنظمة. يمكنك تأمين عملك ضد الخسائر، لكن أي بوليصة تأمين لا يمكن أن تستبدل البيانات التي فقدت نتيجة للحادث أو عواقب التوقف المطول عن العمل على النشاط التجاري. الطريقة الوحيدة لضمان الوقت الفعلي للتشغيل والتوافر هي إنشاء خطة للاستعادة من الكوارث وتشغيل الاختبارات بانتظام. إذا كنت لا تزال غير مقتنع بأن اختبار خطة الاستعادة من الكوارث ضروري، إليك قائمة بما يساعدك اختبار الاستعادة من الكوارث على تحقيقه قبل وقوع الحادث:
- اكتشاف الثغرات أو العيوب في خطة الاستعادة من الكوارث
- التأكد من أن لديك التسلسل الصحيح للإجراءات أثناء الاستعادة
- التحقق من أن أهداف الاستعادة واقعية ويمكن تحقيقها
- تقليل فقدان البيانات
- تنفيذ إجراءات فريق الاستعداد للكوارث والتأكد من فهم كل عضو لدوره
- إدخال التحديثات والإصلاحات قبل فوات الأوان
مكونات عملية اختبار الاستعادة من الكوارث
A DR test should be planned to ensure that it brings results and helps improve DR readiness. This means that disaster recovery test objectives should be clear, and you should have a specified timetable for how often to conduct tests, the criteria for success, evaluation of results, and steps to address gaps and any DR failures. Let’s go over these components in more detail.
تحديد نطاق اختبار الاستعادة من الكوارث
ينطوي نطاق اختبار الاستعادة من الكوارث على مجموعة من الافتراضات والتوقعات التي يجب تحقيقها أثناء عملية الاختبار. يجب أن يتضمن تحديد نطاق الاختبار:
- تحديد الأنظمة والوظائف التي ستشملها عملية اختبار الاستعادة من الكوارث
- تحديد نوعية عملية الاستعادة من الكوارث التي سيتم اختبارها: استعادة الآلات الكاملة من النسخ الاحتياطي، التبديل إلى موقع استعداد للكوارث، إلخ
- تحديد الاستثناءات والقيود مسبقًا، لأن بعض مكونات خطتك للاستعادة من الكوارث قد لا يتم تنفيذها كما هو مخطط
- تحديد الأقسام والموظفين المشمولين في عملية اختبار الاستعداد للكوارث
- تحديد السيناريوهات التي ستتم اختبارها: فشل الموقع الأساسي، هجوم برامج الفدية، فقدان الاتصال، فشل الخادم/قاعدة البيانات، إلخ.
مراجعة خطة الاستعادة من الكوارث
قبل الاختبار، يجب أن تقوم بمراجعة خطة الاستعادة من الكوارث. يجب أن يتم إجراء اختبارات الاستعادة من الكوارث بطريقة منظمة من خلال التركيز على سياسات وممارسات المؤسسة. وبالتالي، يجب على فريق الاستعداد للكوارث أن يجتمع مع الإدارة العليا لمراجعة خطة الاستعداد للكوارث الحالية وتحديد أي تغييرات أو تحديثات يجب تنفيذها بناءً على الوضع الحالي للأعمال. وتشمل هذه العوامل مثل إدخال منتجات جديدة للأجهزة أو البرمجيات، وتوسيع الأعمال التجارية، وتقليص الميزانية، وتغييرات في العمالة، إلخ.
تكرار اختبارات الاستعداد للكوارث
مع كون البيئات التكنولوجية الحالية ديناميكية للغاية، فإن تحديد تكرار المراجعة أمر حاسم للحفاظ على تحديث خطة الاستعداد للكوارث بشكل مستمر. تقوم بعض المؤسسات بمراجعة وتحديث خطط الاستعداد للكوارث مرة واحدة في السنة. ومع ذلك، فإن أكثر استراتيجية فعالة هي تحديث (وإعادة اختبار) خطة الاستعداد للكوارث الخاصة بك كلما تعرضت مكونات الأعمال الحرجة للتغيير. وعلى الرغم من أن اختبارات استعداد الكوارث يمكن أن تستغرق وقتًا وتكلفة، يجب عليك إنشاء جدول زمني لاختباراتك استنادًا إلى احتياجات الأعمال والموارد، مع مراعاة نطاق عمليات استعداد الكوارث.
معايير نجاح الاختبار
يجب عليك تحديد المعايير التي تحدد ما إذا كانت اختبارات استعداد النظام الافتراضي للكوارث ناجحة أم لا. في الواقع، يمكن اعتبار اختبار استعداد النظام الافتراضي للكوارث ناجحًا عندما يتبين أن خطة الاستعداد للكوارث صالحة وقابلة للتنفيذ.
ومع ذلك ، يمكن اعتبار اختبار استعادة الكوارث ناجحًا حتى عندما يفشل خطة الطوارئ في اجتياز الاختبار. يسمح هذا السيناريو لك بتحديد العيوب في خطة الطوارئ قبل وقوع الكارثة الفعلية ومعالجتها في الدورة القادمة من الخطة. في الأساس ، تم تعريف معايير نجاح الاختبار بناءً على التوقعات المحددة مسبقًا ، والتي يجب أن تُعبر بوضوح في خطة اختبار استعادة الكوارث لتجنب أي ارتباك.
تقييم نتائج الاختبار
توفر نتائج عملية اختبار استعادة الكوارث للآلة الظاهرية نظرة عامة عامة عن الاستراتيجيات الحالية المستخدمة في الشركة. يمكن لفريق الاستعادة تقييم نتائج الاختبار والخروج بتحسينات أو تعديلات لخطة الطوارئ بناءً على المشاكل المحددة.
يجب أيضًا مراعاة المقاييس التالية عند تقييم نتائج اختبار استعادة الكوارث:
- مدى الوقت الذي مر قبل استعادة الأنشطة الحيوية المهمة
- كيفية تنفيذ كل خطوة من الخطة (سواء حدثت أخطاء أو تأخيرات
- عدد العمليات التي تم إكمالها بنجاح خلال عملية اختبار استعادة الكوارث
يجب إجراء تغييرات وتحديثات واختبارها لتحسين خطة الطوارئ. الهدف هو توفير عملية استعادة أكثر فعالية وإدارة.
مراجعة خطة الطوارئ بعد الاختبار
بعد تشغيل خطة استعادة الكوارث في وضع الاختبار، من النصائح الجيدة مراجعة خطتك للاستجابة للكوارث مرة أخرى. يجب تسجيل النقاط القوية والضعف، بالإضافة إلى أي نتائج غير متوقعة خلال عملية اختبار استعادة الكوارث وقياس تأثيرها على استمرارية العمل. يمكن أن يساهم ذلك بشكل كبير في تحسين استراتيجيات استعادة الكوارث الخاصة بك وزيادة الأداء العام. يجب تفصيل الخطوات لمعالجة الفجوات والفشل، وإضافتها إلى الإصدار القادم من خطة استعادة الكوارث.
العوامل التي يجب مراعاتها قبل اختبار خطة استعادة الكوارث
- عدد الأشخاص في فريق الاستجابة للكوارث: يجب أن يكون هناك ما لا يقل عن شخصين في فريق استعادة الكوارث لتجنب مشكلة “النقطة الفردية للفشل”. مع وجود أعضاء فريق متعددين، إذا لم يتم الوصول إلى شخص واحد أثناء كارثة، يمكنك أن تطمئن إلى وجود بديل يمتلك المعرفة المطلوبة والوصول إلى موقع استعادة الكوارث.
- الوقت المختار لاختبار استعادة الكوارث: عموماً، يتم تنفيذ اختبار استعادة الكوارث خارج ساعات العمل، حيث أن العملية تستغرق وقتًا ويمكن أن تؤثر على عمليات الأعمال أو تؤثر على الأداء العام. ومع ذلك، قد لا تكون نتائج هذا الاختبار مُبَرَّرة لكيفية عمل خطة استعادة الكوارث تحت ظروف العمل الفعلية. يمكن أن يكون اختبار مكونات خطة استعادة الكوارث الخاصة بآلة الظاهرة في عزلة خلال ساعات العمل حلاً مثالياً. يساعد هذا في تقليل مخاطر تحميل النظام الذي يقدمه الاختبار الكامل.
- التغييرات في الفريق أو في البنية التحتية لتكنولوجيا المعلومات: قبل اختبار خطة الاستعادة من الكوارث، اعتبر العوامل المختلفة التي قد تجعل خطتك غير مكتملة ومتقادمة. كما ذكر أعلاه، يمكن أن تشمل هذه العوامل مكونات البنية التحتية الجديدة، وتغييرات في الفريق، وغير ذلك. أبقِ فريق الاستعادة من الكوارث على علم بالتغييرات الجديدة في البيئة وأرسل مذكرات موجزة تُبلغ الموظفين بآخر التحديثات.
أساليب اختبار استعادة الكوارث
في هذا القسم، نغطي أربعة من أكثر الأساليب شيوعًا في اختبار استعادة الكوارث. اعتبرها بعناية قبل اتخاذ قرار بشأن أيها يوفر النهج المناسب لمؤسستك أو ما إذا كان يمكن استخدام مزيج من هذه الأساليب.
اختبار القائمة التفقدية
A checklist test of a disaster recovery plan involves reviewing the list of requirements and conditions that must be met. This review is a great starting point as it is the most basic option and involves analyzing the current plan and looking over every point in order to spot the outdated or missing parts. This means verifying, for example, that the backup site is of sufficient size, that the recovery team is notified of the latest updates, that the data protection solution is running, etc.
من خلال استخدام هذه الطريقة لاختبار استعادة الكوارث، يمكن لفريق الاستعادة مراجعة خطة الاستعادة من الكوارث بسرعة، وضمان توفر كل مكون، وتحديد أي مكونات ناقصة في استراتيجية الاستعادة من الكوارث. يمكن إجراء هذا الإجراء في وقت أدنى وبدون مشاركة كبيرة من الموظفين.
اختبار المرور
الغرض من هذه الاستراتيجية هو المرور عبر كل خطوة من خطة استعادة النظام الافتراضي لإدارة الأزمات بالكلام وتحديد أي مشاكل ونقائص. هنا، يشارك جميع أعضاء فريق الاستعادة في مراجعة ومناقشة خطة استعادة النظام الافتراضي لإدارة الأزمات، مقدمين توصيات.
من الضروري التأكد من أن الجميع يفهمون الخطة تمامًا ويدركون مسؤولياتهم أثناء حدوث حالة طوارئ استعادة النظام. هذه الطريقة تنطوي فقط على مناقشة شفهية لعملية استعادة النظام الافتراضي لإدارة الأزمات. لا يتم فعليًا اختبار أو توثيق الجوانب التكنولوجية لخطتك لاستعادة النظام الافتراضي في اختبار المرور.
اختبار المائدة/محاكاة
لإجراء اختبار على الطاولة، تقوم المؤسسة بمراجعة سيناريو كوارث محاكاة لتحديد ما إذا كانت خطة الاستعادة من الكوارث كافية ويمكن تحقيق الأهداف المحددة. يمكن اعتبار هذا الأسلوب امتدادًا لاختبار المراجعة العابرة. يتم عرض سيناريوهات الكوارث المختلفة على جميع أعضاء الفريق، الذين يقومون بمناقشة كيفية تصرفهم في تلك الظروف. يتيح ذلك اختبار استعداد موظفيك في إطار أكثر واقعية والتحقق مما إذا كانت خطة الاستعادة من الكوارث الخاصة بك يمكنها التعامل مع المشكلات غير المتوقعة.
- اختبار تشغيلي على الطاولة. يقوم فريق الاستعداد للكوارث بمراجعة الخطة خطوة بخطوة كما لو كانت الكارثة حقيقية. يساعد هذا الأسلوب من اختبار استعادة المخاطر على تحديد النقاط العمياء المحتملة والمشاكل المخفية.
- محاكاة السيناريو. يشمل هذا الأسلوب تنفيذ خطة استعادة المخاطر في بيئة اختبار بدون أي تعطيل لسير العمل الإنتاجي. يتم تشغيل المحاكاة وفقًا لـ سيناريوهات استعادة محددة.
- محاكاة استعادة الكوارث الكاملة. يشبه هذا الأسلوب اختبار المحاكاة المذكور أعلاه، ولكن هذه المرة يتضمن السيناريو فشل العمليات بشكل كامل في موقعك الرئيسي. يتضمن الأسلوب محاولة الاستعادة الكاملة في موقع خارجي.
اختبار موازي
اختبار التوازي يتيح لك اختبار وظائف أنظمة الاستعادة الخاصة بك لتحديد ما إذا كانت قادرة على تنفيذ عمليات الأعمال وتأمين العمليات الحرجة. لا يتم تضمين الأنظمة الأساسية في عملية اختبار استعادة الكوارث، حيث يُفترض أنها ستدعم حمولة الإنتاج بالكامل. هذه طريقة آمنة وغير مزعجة لاختبار الأنظمة التقنية.
اختبار الانقطاع الكامل
A full-interruption DR test provides thorough testing of your VM DR plan. In this case, your DR site assumes the full production workload and the primary site is shut down. The goal is to recover as quickly as possible using the corporate disaster recovery plan. The execution of a full-interruption test should be well thought out as normal operations can be disrupted and it is quite costly.
يجب توثيق كل عملية استعادة. حدد جميع المشاكل والمخاوف خلال تنفيذ اختبار DR لمعالجتها في وقت لاحق. يجب مراقبة أفعال فريق الاستعادة بعناية لتحديد أي فجوات محتملة في خطة استعادة الآلة الظاهرية الخاصة بك. اختبار الانقطاع الكامل هو أيضًا طريقة مناسبة لاختبار استعادة الكوارث للتحقق مما إذا كانت أهداف DR الخاصة بك مقبولة ويمكن تحقيقها.
قد تفكر في إجراء اختبار الانقطاع الكامل دون إبلاغ موظفيك مسبقًا. يتيح لك ذلك تقييم جاهزية فريقك بدقة أكبر في حالة وقوع كارثة.
نصائح مفيدة لاختبار استعادة الكوارث
اختبار خطة الاستعادة الكاملة هو مهمة مهمة يمكن أن تبدو مرهقة في بعض الأحيان. يمكن أن تساعدك نصائح اختبار استعادة الكوارث التالية على توفير الوقت وتقليل الإجهاد:
- بعد تثبيت أي منتجات جديدة للأجهزة أو البرمجيات، قم باختبارها على الفور للتحقق من وظائفها وسلامتها. يساعدك ذلك أيضًا في العثور على RTO للمنتج ومعرفة كيفية أدائه خلال إجراءات الاستعادة.
- أجرِ تحليل المخاطر (RA) وتحليل تأثير الأعمال (BIA) قبل تصميم خطة الاستعادة من الكوارث. قم بمراجعة نتائج هذه التحاليل باستمرار، وإذا تم إجراء أي تغييرات، فكّر في كيفية عكسها في استراتيجية الاستعادة من الكوارث الخاصة بك.
- يجب تنفيذ الاختبار في ظروف تشابه قدر الإمكان مع سيناريو الاستعادة من الكوارث. من خلال محاكاة سيناريو كارثة حقيقي، يمكنك رؤية مدى قدرة الموظفين على أداء مهامهم في ظروف الاستعادة من الكوارث. يساعد هذا أيضًا في تقليل الضغط على موظفيك، حيث يتعود الموظفون أكثر على مختلف سيناريوهات الاستعادة من الكوارث ويتعلمون ما يُتوقع منهم.
- قم بدعوة مراقبين مستقلين لمراجعة خطتك للاستعادة من الكوارث ومراقبة عملية الاختبار. تضمن هذه الطريقة عدم اتخاذ الموظفين اختصارات لإكمال الاختبارات بسرعة. علاوة على ذلك، يمكن للمراقبين المستقلين بعد ذلك المساعدة في إعادة صياغة خطة للاستعادة من الكوارث وتحسينها، مما يسمح غالبًا بتحديد مشكلات لا تظهر لأولئك داخل المؤسسة.
- امتلك قائمة كاملة بجميع التطبيقات في بنيتك التحتية. يجب أن تشمل هذه القائمة تفاصيل كل تطبيق، وتكويناتها، وتفاصيل الاتصال بأصحاب التطبيقات، وتفاصيل العقد/الترخيص الخاصة بك.
- في المراحل الأولية، يجب أن يتم إجراء اختبار الاستعادة من الكوارث تدريجياً وبعد ساعات العمل لعدم تحميل النظام بشكل زائد. بعد تحديد أي نقائص وتحسين الخطة وفقًا لذلك، يمكنك التفكير في إجراء مزيد من الاختبارات الكاملة في ساعات العمل.
استعادة الكوارث مع NAKIVO Backup & Replication
ناكيفو للنسخ الاحتياطي والاستعادة هو حلا موثوقاً للنسخ الاحتياطي واستعادة الكوارث. يتيح الحل لك أتمتة عمليات النسخ الاحتياطي، والتكرار، واستعادة الكوارث مع ضمان سلامة البيانات عبر منصات مختلفة (فيزيائية، افتراضية، أو سحابية). يحتوي حل ناكيفو على ميزات تكرار الآلة الظاهرية، وفشل الآلة الظاهرية، والتبديل الأتوماتيكي للتشغيل، وميزات استعادة الموقع للاستعادة من الكوارث. علاوة على ذلك، يمكنك اختبار سلسلة الاستعادة من الكوارث للتأكد من أن كل شيء مُكون بشكل صحيح.
تشغيل وظائف استعادة الموقع في وضع الاختبار
يتيح لك ناكيفو للنسخ الاحتياطي واستعادة الكوارث تشغيل وظائف استعادة الموقع في وضع الاختبار للتحقق مما إذا كان يمكن استعادة جميع مكونات النظام بسهولة خلال حدث استعادة من الكوارث ومما إذا كان بالإمكان تحقيق أهداف DR المحددة. هذا الاختبار لا يؤثر على أعباء العمل الإنتاجية. يمكن جدولة وظيفة استعادة الموقع في وضع الاختبار وتشغيلها عند الطلب أيضاً.
يوضح التالي كيفية تشغيل وظيفة استعادة الموقع يدوياً في وضع الاختبار. يجب ملاحظة أن يجب تكوين وظيفة استعادة الموقع أولاً.
- في لوحة الوظائف، حدد وظيفة استعادة الموقع ثم انقر على زر تشغيل الوظيفة. يعطيك القائمة المنسدلة خيارين. انقر على اختبار استعادة الموقع.
- في مربع الحوار الذي يتم إطلاقه، يمكنك تكوين مقاييس RTO الخاصة بك. حدد الحد الأقصى المسموح به من الوقت الذي يمكن أن تستغرقه وظيفة استعادة الموقع لاستكماله. إذا تجاوزت العملية الاختبارية قيمة RTO التي أدخلتها، يُعتبر الاختبار فاشلاً. يمكنك أيضاً تعطيل هذا الخيار.
- أخيراً، انقر على اختبار لتشغيل الوظيفة.
خيارات الجدولة للاختبار
الخيارات لجدول الاختبارات
يمكنك أيضًا تكوين خيارات جدولة الاختبار عند تكوين وظيفة الاستعادة من الموقع. تعمل هذه الخيارات عند تشغيل هذه الوظيفة في وضع الاختبار.
تقرير البريد الإلكتروني
مع تمكين هذا الخيار، يتلقى المستلمون المحددين تقرير اختبار في كل مرة يتم فيها إكمال الوظيفة. تحتاج إلى تكوين إعدادات الإشعار عبر البريد الإلكتروني في علامة 5. الخيارات قبل النقر فوق إنهاء.
يمكنك أيضًا تنزيل تقرير كملف PDF أو CSV مباشرةً من متصفح الويب. ما عليك سوى النقر بزر الماوس الأيمن على وظيفة الاستعادة من الموقع والنقر فوق تقرير وظيفة الاستعادة من الموقع.
Source:
https://www.nakivo.com/blog/disaster-recovery-testing-top-reasons/