למרות כמה שחזקו החומרה והתוכנה היום, המכשירים עדיין חשים לפשילה בגלל סיבות שונות. כאשר הם נופלים, מערכות יכולות להתנתק ונתונים יכולים להיות בלתי זמינים לתקופות ארוכות. ואף כאשר מערכות מוחזרות לפעולה, לעיתים נתונים בלתי אפשרי לשחזר ומאבדים לצמיתות. הדרך הכי אמינה להפחתת הסיכונים האלה היא ליישם תוכנית איכותית לשחזור בפני אסון (DR).
A disaster recovery plan is a set of procedures that must be undertaken to restore data and workloads within set time limits. This detailed DR checklist includes mechanisms put in place in advance to prepare for different disaster scenarios.
סטטיסטיקות מראות כי 95% מהחברות בעולם משקיעות משאבים ניכרים בתכנון לגישה לרעה, כולל DR. אך רק 78% מהן משתמשות בבדיקת שחזור אסון כדי לוודא שתוכניתן באמת עומדת ביעדים. קראו הלאה כדי ללמוד מהו בדיקת שחזור אסון וכיצד לפתח אסטרטגיה לבדיקת DR עבור הארגון שלכם כדי לוודא זמינות מערכת והמשך עיסוקי עסקיים במהלך כל אירוע.
מהו בדיקת שחזור אסון?
בדיקת שחזור אסון היא אימות של צעדי תוכנית הDR כדי לוודא שהתוכנית יכולה להישג בהצלחה ויישום ויישום יכולים להיות מוצלחים ויישום יכולים להיות מוצלחים לאחר הפרעה. בדיקת תוכנית שחזור אסון מטרתה לוודא שפעילויות עסקיות ושירותים חיוניים יכולים להינהל במהלך ואחרי האירוע.
טעינת אמת תוכנית הrecovery הזמנית בצורה מקיפת היא המשמשת בכדי להמיר תקלה מתמטרית או כל סוג של הפסקה בעסקות כדי לבדוק את תוכנית הrecovery הזמנית שברשותך. המטרות הרئות של טעינת הבדיקה הזמנית הן: לבדוק אם ארגון יכול להציג ערכים המתאימים למטרות הזמנים לחזור (RTO) וערכים המתאימים למטרות הנקודת ההפעלה האחרונה (RPO) שנמצאים בתוכנית הrecovery הזמנית. עליך להבין RPO נגד RTO ולהגדיר אותם לכל יישום ו-VM. טעינת הבדיקה הזמנית מספקת מידע על התנהגות המערכת אם חלק מהאינפרסטרוקציה שלך מתאבד. זה מידע שיכול לעזור לך לשפוך את תוכנית ה recovery הזמנית שלך ולתקן קישורים חלשים לפני שהתרחשה הפסקה המקורית.
העתק של תוכנית ה recovery הזמנית לא צריך להיות מוגבלת לבעשייות הטכניות של תוכנית ה recovery הזמנית. היא כל כך חשובה כמו בדיקת שימוש של כל עובד השתתף ב recovery הזמני יכול להבין תפקידו ולהיות מורשה למשאבים שלו של ביצוע משימתו pendant הפסקה.
טעינת תוכנית ה recovery הזמנית חייבת להתבצע בטוח, למשל כמה פעמים לשנה. סביבות ה-IT משתנות בטבע עם תוכנות שמתבטאות, יישומים חדשים הבוראים או העברה של התקן חדש, שבנוסף מכריע לצורך בדיקות התאמנות המתאימות לתוכנית ה recovery הזמנית. תהליך בדיקת ה recovery הזמנית יכול להיות חלק מרutines ה유지 ושימוש באמצעות האדם.
למה חשובה טעינת בדיקת ה recovery הזמנית
הסיכון שבאי הבחינה בתוכנית שחזור מניעת אסון הוא אובדן נתונים וגישה למערכות. אפשר להבטיח את העסק שלך נגד אובדנים, אך אין מדיניות ביטוח שיכולה להחליף את הנתונים שנאבדו כתוצאה מאירוע או את ההשלכות של זמן השבתה ממושך על עסק. הדרך היחידה להבטיח את פעילות המערכת ואת הזמינות היא ליצור תוכנית שחזור מניעת אסון ולהריץ בדיקות רגילות. אם עדיין לא נמשכתם שבדיקת תוכנית השחזור מניעת אסון היא נחוצה, הנה רשימה של מה לתוכנית הבדיקה עוזרת להשיג לך לפני אירוע:
- לגלות חורים או תקלות בתוכנית שחזור מניעת אסון
- לוודא שיש לך את הרצף הנכון של פעולות במהלך השחזור
- לאמת שיעודי השחזור הם ריאליים וניתן לקיימם
- למזער את האובדן של נתונים
- להפעיל את פעולות צוות השחזור מניעת האסון ולוודא שכל חבר בצוות מבין את תפקידו
- להכניס עדכונים ותיקונים לפני שיהיה מאוחר מדי
רכיבי תהליך בדיקת שחזור מניעת אסון
A DR test should be planned to ensure that it brings results and helps improve DR readiness. This means that disaster recovery test objectives should be clear, and you should have a specified timetable for how often to conduct tests, the criteria for success, evaluation of results, and steps to address gaps and any DR failures. Let’s go over these components in more detail.
הגדרת טווח הבדיקה שחזור מניעת אסון
טווח בדיקת השחזור מניעת האסון כולל סט של הנחיות וציפיות שצריך לעמוד בהן במהלך תהליך הבדיקה. הגדרת טווח הבדיקה צריכה לכלול:
- זיהוי המערכות והפעולות שיכללו בבדיקת השחזור מניעת האסון
- הגדרת סוג התהליך של שחזור מניעת האסון שיבוצע: שחזור של מכונות מלאות מגיבויים, החלפת מיקום לאתר DR וכו'
- הקצאת יוצאי הכלל וההגבלות מראש, מכיוון שקטעים מסוימים של תוכנית השחזור מניעת האסון שלך עשויים לא להתבצע כפי שתוכננו
- ציון המחלקות והצוותים שכלולים בתהליך הבדיקה של שחזור מניעת האסון
- הגדרת התרחישים שיבוצעו בבדיקה: כישלון באתר הראשי, תקיפת רנסום, אובדן חיבור, כישלון בשרת/במסד הנתונים, וכו'
סקירת תוכנית השחזור מקרי חירום
לפני הבדיקה, עליך לבצע סקירה של תוכנית השחזור מקרי חירום. בדיקות השחזור צריכות להתבצע באופן מאורגן על ידי התמקדות במדיניות ובפערי המעשים של הארגון. לכן, צוות השחזור מקרי חירום צריך לפגוש את ההנהלה הגבוהה כדי לסקור את תוכנית השחזור הקיימת ולקבוע כל שינויים או עדכונים שצריך ליישם לפי מצב העסק. אלה כוללים גורמים כגון הצגת מוצרי חומרה או תוכנה חדשים, הרחבת העסק, חיתוך בתקציב, תפוצה בצוות, וכו'
תדירות בדיקת השחזור מקרי חירום
עם סביבות ה-IT הנוכחיות היותר דינמיות, קביעת תדירות הסקירה חיונית לשמירה על תוכנית השחזור מקרי חירום שלך מעודכנת באופן קבוע. חלק מהארגונים סוקרים ומעדכנים את תוכניות השחזור מקרי החירום שלהם פעם בשנה. אך האסטרטגיה היעילה ביותר היא לעדכן (ולבדוק מחדש) את תוכנית השחזור מקרי החירום שלך בכל פעם שרכיבים חיוניים למשימה של הארגון שלך עוברים שינויים. בעוד שבדיקות השחזור מקרי חירום עשויות להיות זמינות ויקרות, עליך ליצור את לוח הזמנים שלך על סמך צרכי העסק והמשאבים, ולשקול את ההיקף של תהליכי השחזור מקרי חירום
קריטריוני הצלחת הבדיקה
עליך לקבוע את הקריטריונים שמקבילים אם בדיקות השחזור מקרי חירום של המכונות הווירטואליות שלך מוצלחות או לא. באופן אידיאלי, ניתן לשער כי בדיקות השחזור מקרי חירום של המכונות הווירטואליות מועברות כאשר תוכנית השחזור מקרי חירום מוכחת כתקפה ויעילה.
בדיקת תוצאות הבדיקה
התוצאות של ת processes provide a general overview of the DR strategies currently used in the company. המחלקה המתאימה יכולה לבדוק התוצאות ולציין שיקוmfications או התאמות לתוכנית ההתקפה בהתבסס על בעיות שנימצאו.
הבדיקה של המetric הבאים 또한 חשובה כאשר מבדקים תוצאות בדיקת DR:
- כמה זמן עבר לפני שפעולות עיקריות המשימה שוחזרו
- כמה טוב הוא ביצע כל צעד בתוכנית (אם קיימו שגיאות או אריחות
- כמה פעולות הצלחו בהצלחה pend ing the DR testing process
יש לעשות שינויים ובדיקות כדי לשפר את תוכנית ההתקפה. המטרה היא לספק תהליך החזרה יותר עוצמתי ונהלך יותר.
בדיקה מאוחרת של תוכנית ההתקפה
אחרי ביצוע תוכנית שחזור מקרה חירום במצב בדיקה, מומלץ לבדוק שוב את תוכנית השחזור מקרה החירום שלך. יתרונות וחסרונות, כמו גם כל תוצאות בלתי צפויות, צריכים להירשם במהלך הבדיקה של תהליך השחזור מקרה החירום ולמדד את השפעתם על ההמשך של פעילות העסק. זה יכול לשפר באופן משמעותי את תכניות השחזור מקרה החירום שלך ולשפר את הביצועים הכוללים. שלבים לטיפול בפערים ובכשלים צריכים להיות מפורטים ונוספים למהדורה הבאה של תוכנית השחזור מקרה החירום שלך.
פקטורים לשיקול לפני בדיקת תוכנית השחזור מקרה החירום
- מספר האנשים בצוות שחזור מקרה החירום: על הצוות להיות לפחות שני אנשים בצוות שחזור מקרה החירום כדי למנוע את בעיה של "נקודת כשל". עם חברי צוות מרובים, אם איש אחד לא ניתן להשגה במהלך פתיחת מקרה חירום, ניתן להיות בטוחים שיש מחליף עם הידע הנדרש וגישה לאתר שחזור מקרה החירום.
- זמן היום שנבחר לבדיקת שחזור מקרה החירום: כללית, בדיקת שחזור מקרה החירום מבוצעת מחוץ לשעות העבודה, מאחר והתהליך דורש זמן ויוכל להפריע לפעילות העסק או להשפיע על הביצועים הכוללים. אולם, תוצאות הבדיקה אולי לא יהיו מפתחות לכיצד תוכנית השחזור מקרה החירום תפעל בתנאים עבודה אמיתיים. בדיקת הרכיבים של תוכנית שחזור מקרה החירום של VM בבדיקת בידוד בשעות העבודה יכולה להיות פתרון אידיאלי. זה יעזור להפחית את הסיכון של עומס מערכת שבדיקה מלאה מציבה.
- שינויים בצוות או ב инפרструקצ'יה טכנולוגית: לפני בדיקת תוכנית הrecovery האסונית, הערכו את הפערים שיכולים לעשות את תוכניתך הDR לא מקיפה ולא מעודכנת. כפי שכתוב למעלה, אלו הפערים יכולים לכלול מכוני חדשים באינפרסטרוקצ'יה, שינויים בצוות, ועוד. העדכן את הצוות הDR על שינויים חדשים בסביבה ושלח תזכורות מ briefly של העדכונות האחרונות.
שיטות בדיקת recovery האסונית
בפרק זה, אנחנו מכירים את הארבע שיטות הבדיקה הנפוצות ביותר ל recovery האסונית. השקפו אותן נהיה מקרה לפני החלטה שאתה מצליח באופן נכון לארגון שלך או אם שיטה אחרת של השיטות האלו יכולה להיות מתאימה יותר.
בדיקת רשימת משימות
A checklist test of a disaster recovery plan involves reviewing the list of requirements and conditions that must be met. This review is a great starting point as it is the most basic option and involves analyzing the current plan and looking over every point in order to spot the outdated or missing parts. This means verifying, for example, that the backup site is of sufficient size, that the recovery team is notified of the latest updates, that the data protection solution is running, etc.
באמצעות שיטת בדיקת DR זו, צוות הrecovery יכול לבדוק מהירות את תוכנית הDR, לוודא שכל הרכיבים ברירת מחדל ולזהות כל הרכיבים החסרים בתוכנית ה recovery. פעולה זו יכולה להתבצע בזמן מזער ובלי שיקום משאבי אנוש משמעותי.
בדיקת DR דרך התייצבות
המטרה של אופן הבדיקה הזה הוא להתהלך דרך כל שלב של תוכנית recovery האסונית ולזהות כל הבעיות והחסרונות. כאן, כל חברי צוות הrecovery משתתפים בבדיקה ובשיקום של תוכנית הDR, מציעים תוכניות.
היא חשובה להבטיח שכל אחד מהחברים משכיר את התוכנית ומכירה את הסוגיות שלהם pendant אירוע recovery. בדיקה זו רק כוללת שיחה על תהליך הDR. היתרונות הטכנולוגיים של תוכניתך הDR לא נבדקים או לא מאשרים בבדיקה דרך התייצבות.
בדיקת DR שולחן עבודה / בדיקת הזמנה
למבחן בשולחן הארגון עובר דרך תרגול תרחיש דיסאסטר מדומה כדי לזהות אם תוכנית השחזור מתאימה והמטרות המוגדרות יכולות להתקיים. שיטת בדיקת דיסאסטר זו נחשבת להרחבה של מבחן הסקירה. כל חברי הצוות מתמודדים עם תרחישים שונים של דיסאסטר, שהם בודקים על ידי דיון בדרך שבה הם יתנהלו במצבים המופעלים. זה מאפשר לך לבדוק את מוכנות הצוות שלך בהגדרה יותר ריאלית ולבדוק האם תוכנית השחזור מתמודדת עם בעיות בלתי צפויות.
- תרגול דרך שולחן. צוות השחזור מבצע סיבוב בתוכנית שלב אחר שלב כאילו דיסאסטר אמיתי התרחש. שיטת בדיקת השחזור מעזרת לזהות נקודות עיוות פוטנציאליות ובעיות מוסתרות.
- תרגול תרחיש. שיטה זו כוללת ביצוע של תוכנית השחזור בסביבת בדיקה ללא הפרעה לזרימת העבודה המוצפנת. התרגול מתבצע על פי תרחישי שחזור מסוימים.
- תרגול שחזור מלא מדיסאסטר. שיטת בדיקת השחזור זו דומה לתרגול המתואר למעלה, אך הפעם התרחיש כולל כשל מוחלט של הפעולות באתר הראשי שלך. השיטה כוללת נסיון שחזור מלא במיקום מחוץ לאתר הראשי.
בדיקת פרללית
הבדיקה המקבילה מאפשרת לך לבדוק את פונקציות מערכות השחזור שלך כדי לקבוע האם הן יכולות לבצע פעולות עסקיות ולשמור על תהליכים קריטיים. מערכות העיקוב הראשיות אינן כלולות בתהליך בדיקת השחזור מפני תקלות, משום שמצופה מהן לתמוך בעומס הייצור המלא. זוהי דרך בטוחה ולא מפריעה לבדיקת מערכות טכניות.
בדיקת הפריעה המלאה
A full-interruption DR test provides thorough testing of your VM DR plan. In this case, your DR site assumes the full production workload and the primary site is shut down. The goal is to recover as quickly as possible using the corporate disaster recovery plan. The execution of a full-interruption test should be well thought out as normal operations can be disrupted and it is quite costly.
כל תהליכי השחזור עליהם יש להם להיות תיעודיים. זהו מקום לזהות את כל הבעיות והדאגות לאורך ביצוע בדיקת השחזור כדי לטפל בהן מאוחר יותר. יש לצפות בקרות את פעולות צוות השחזור כדי לזהות כל פערי אפשרויות בתוכנית השחזור של מכונה וירטואלית שלך. בדיקת הפריעה המלאה היא גם שיטת בדיקת שחזור מתאימה לבדיקה האם מטרות השחזור שלך הן מקובלות וניתנות להשגה.
כדאי לשקול לבצע בדיקת הפריעה המלאה בלתי מודיעה לצוות שלך מראש. זה מאפשר לך להעריך באופן מדויק יותר את המוכנות של הצוות שלך במקרה של אסון.
טיפים שימושיים לבדיקת שחזור אסון
בדיקת תוכנית שחזור אסון היא משימה חשובה שעשויה להראות מובילה מזמן לזמן. הטיפים הבאים לבדיקת שחזור אסון יכולים לעזור לך לחסוך זמן ולהפחית דחיפות:
- לאחר התקנת מוצרי חומרה או תוכנה חדשים, יש לבדוק אותם מיד לוודא את פונקציונליותם ותקינותם. זה גם יועיל במציאת RTO של המוצר ובלמידה כיצד הוא עשוי לבצע בתהליכי השחזור של אסון.
- בצע ניתוח סיכונים (RA) וניתוח השפעה עסקית (BIA) לפני עיצוב תוכנית השחזור מצב דחוי (DR). עדכן באופן קבוע את תוצאות הניתוחים הללו, ואם ישנם שינויים, עליך לשקול כיצד להשקיע אותם באסטרטגיית DR שלך.
- צריך לבצע בדיקות בנסיבות ככל האפשר דומות לתרחיש DR. על ידי סימולציה של תרחיש פושע באמת, תוכל לראות כמה טוב עובדים מבצעים את תפקידיהם בתנאים של DR. זה גם יסייע להפחית עומס על הצוות שלך, מאחר שהעובדים מתרגלים יותר לתרחישים שונים של DR ולומדים מה צפוי מהם.
- הזמן משקיף עצמאי לבדוק את תוכנית ה-DR שלך ולמקם את תהליך הבדיקה. שיטה זו מבטיחה שאין מסלולים מהירים הנלקחים על ידי העובדים להשלים את הבדיקות במהירות. בנוסף, משקיפים עצמאיים יכולים לעזור לכתוב מחדש את תוכנית ה-DR ולשפר אותה, לעיתים זוהי מאפשרת זיהוי של בעיות שאינן גלויות לאלו בארגון.
- יש להפקיד רשימה מלאה של כל היישומים בתשתיות שלך. הרשימה צריכה לכלול את פרטי כל יישום, הגדרותיהם, פרטי התקשרות של בעלי היישום, ופרטי החוזים/רישוי שלך.
- בשלבי ההתחלה, יש לבצע בדיקות DR בחלקים ואחרי שעות עסקים כדי לא לעמוד בעומס על המערכת. לאחר זיהוי כל חסרונות ושיפור התוכנית בהתאם, ניתן לשקול להריץ בדיקות מלאות נוספות בשעות עסקים.
שחזור מצב דחוי עם NAKIVO Backup & Replication
NAKIVO Backup & Replication היא פתרון אמין לגיבוי ושחזור מקרי חירום. הפתרון מאפשר לך לאוטומטזציה את תהליכי הגיבוי, השכפול ושחזור המקרי חירום ובו זמנית להבטיח את שלמות הנתונים בכל הפלטפורמות השונות (פיזי, וירטואלי או ענן). הפתרון NAKIVO מכיל שימוש בשכפול VM, כשיבוש VM, חזרה לעבודה רגילה ותכונות שחזור אתר לשחזור מקרי חירום. בנוסף, אפשר לבדוק רצף שחזור מקרי חירום כדי לוודא שהכל מוגדר כראוי.
הרצת עבודות שחזור אתר במצב בדיקה
NAKIVO Backup & Replication מאפשר לך להריץ עבודות שחזור אתר במצב בדיקה כדי לבדוק אם כל הרכיבים של המערכת יכולים להתאפס בקלות במהלך אירוע שחזור מקרי חירום והיעדים לכלי ההחלטה נקובים יכולים להתקיים. הבדיקה הזו אינה מפריעה לעומסי עבודה בפרודקציה. עבודת שחזור אתר במצב בדיקה ניתנת לתזמון ולהפעלה על פי דרישה.
המדריך הבא מספר לך כיצד להפעיל עבודת שחזור אתר באופן ידני במצב בדיקה. שים לב שעבודת שחזור אתר צריכה להתקיים תחילה.
- בלוח המחוונים עבודות, בחר עבודת שחזור אתר ולאחר מכן לחץ על הלחצן הרץ עבודה. התפריט הנפתח נותן לך שתי אפשרויות. לחץ על עבודת שחזור אתר במצב בדיקה.
- בתיבת הדו-שיח שמופיעה, ניתן להגדיר את המדדים של RTO שלך. הגדר את כמות הזמן המרבית המותרת שעבודת השחזור אתר שלך יכולה לקחת כדי להשלים. אם הרץ הבדיקה חורגת מערך RTO שהזנת, הבדיקה תיחשב כנכשלת. ניתן גם לבטל אפשרות זו.
- לבסוף, לחץ בדיקה כדי להפעיל את העבודה.
אפשרויות לתזמון הבדיקה
אפשרויות ללוח זמנים של הבדיקה
ניתן גם להגדיר אפשרויות לקביעת לוח זמנים לבדיקה כאשר אתה מגדיר עבודת שחזור לאתר. אלה האפשרויות עובדות כאשר אתה מפעיל את העבודה הזו במצב בדיקה.
דיווח באימייל
עם האפשרות הזו מאופשרת, נמענים נבחרים מקבלים דו"ח בדיקה בכל פעם שהעבודה הושלמה. עליך להגדיר הגדרות הודעות באימייל בלשונית 5. אפשרויות לפני שתלחץ על סיום.
ניתן גם להוריד דו"ח כקובץ PDF או CSV ישירות מדפדפן אינטרנט. פשוט ללחוץ על עבודת שחזור וללחוץ על דו"ח עבודת שחזור לאתר.
Source:
https://www.nakivo.com/blog/disaster-recovery-testing-top-reasons/