ما هو التكرار في تخزين بيانات النسخ الاحتياطي؟

الدروس التعليمية

تولد كبيرة من البنية التحتية الافتراضية اليوم تولد كمية كبيرة من البيانات. هذا يؤدي إلى زيادة في بيانات النسخ الاحتياطي والمصاريف المتعلقة ببنية تخزين النسخ الاحتياطي، والتي تشمل أجهزة التخزين وصيانتها. لهذا السبب، يبحث مسؤولو الشبكات عن طرق لتوفير مساحة التخزين عند إنشاء النسخ الاحتياطية المتكررة للآلات والتطبيقات الحرجة.

أحد التقنيات المستخدمة على نطاق واسع هو تكرار النسخ الاحتياطية. يغطي هذا المقال ما هو تكرار البيانات، أنواع التكرار، وحالات الاستخدام مع التركيز على النسخ الاحتياطية.

ما هو التكرار؟

تكرار البيانات هو تقنية لتحسين سعة التخزين. يتضمن تكرار البيانات قراءة البيانات المصدر والبيانات المخزنة بالفعل لنقل أو حفظ فقط كتل البيانات الفريدة. يتم الحفاظ على الإشارات إلى البيانات المكررة. من خلال استخدام هذه التقنية لتجنب النسخ على حجم، يمكنك توفير مساحة القرص وتقليل العبء التخزيني.

أصول تكرار البيانات

أسلاف تكرار البيانات هي خوارزميات ضغط LZ77 و LZ78 التي تم تقديمها في عامي 1977 و 1978 على التوالي. تتضمن استبدال تسلسلات البيانات المتكررة بإشارات إلى تلك الأصلية.

هذا المفهوم أثر على طرق الضغط الأخرى الشهيرة. الأكثر شهرة من هذه هي DEFLATE، التي تستخدم في تنسيقات ملف الصور PNG وملف ZIP. الآن دعونا نلقي نظرة على كيفية عمل تكرار النسخ الاحتياطي مع نسخ الآلي الافتراضية وكيف يساعد بالضبط في توفير مساحة التخزين والتكاليف المستهلكة على البنية التحتية.

ما هو التكرار في النسخ الاحتياطي؟

خلال عملية النسخ الاحتياطي، تقوم تقنية تجزئة البيانات بالبحث عن كتل بيانات متطابقة بين مساحة التخزين المصدرية ومستودع النسخ الاحتياطي الهدف. لا يتم نسخ النسخ المتكررة، بل يتم إنشاء مرجع أو مؤشر إلى كتل البيانات الحالية في مساحة تخزين النسخ الاحتياطي الهدف.

كم يمكن لتقنية تجزئة البيانات توفير مساحة؟

لفهم مقدار المساحة التخزينية التي يمكن الحصول عليها باستخدام التجزئة، دعنا ننظر إلى مثال. الحد الأدنى لمتطلبات النظام لتثبيت ويندوز سيرفر 2016 هو على الأقل 32 غيغابايت من المساحة الحرة على القرص. إذا كان لديك عشرة آليات افتراضية تعمل بهذا النظام، فإن النسخ الاحتياطية ستبلغ ما لا يقل عن 320 غيغابايت، وهذا فقط نظام تشغيل نظيف دون أي تطبيقات أو قواعد بيانات عليه.

من المحتمل أنه إذا كنت بحاجة إلى نشر أكثر من جهاز افتراضي واحد (VM) بنفس النظام، ستستخدم قالبًا، وهذا يعني أنه في البداية، ستكون لديك عشرة أجهزة متطابقة. وهذا يعني أيضًا أنك ستحصل على 10 مجموعات من البيانات المكررة. في هذا المثال، ستحصل على نسبة توفير مساحة تخزينية بنسبة 10:1. بشكل عام، يُعتبر توفير المساحة بنسب تتراوح من 5:1 إلى 10:1 جيدًا.

نسبة تجزئة البياناتنسبة تجزئة البيانات هي مقياس يستخدم لقياس حجم البيانات الأصلي مقابل حجم البيانات بعد إزالة الأجزاء الزائدة. يتيح هذا المقياس لك تقييم فعالية عملية تجزئة البيانات. لحساب القيمة، يجب عليك قسمة كمية البيانات قبل التجزئة على المساحة التخزينية التي يتم استهلاكها بواسطة هذه البيانات بعد تجزئتها.

نسبة تكرار البيانات هي مقياس يُستخدم لقياس حجم البيانات الأصلي مقابل حجم البيانات بعد إزالة الأجزاء الزائدة. يسمح هذا المقياس لك بتقييم فعالية عملية تكرار البيانات. لحساب القيمة، يجب عليك قسمة كمية البيانات قبل تكرار البيانات على المساحة التخزينية التي تم استهلاكها بواسطة هذه البيانات بعد أن تم تكرارها.

على سبيل المثال، نسبة تكرار البيانات 5:1 تعني أنه يمكنك تخزين خمس مرات أكثر من البيانات المؤمنة في تخزين النسخ الاحتياطي مما هو مطلوب لتخزين نفس البيانات دون تكرار.

يجب عليك تحديد نسبة تكرار البيانات و تقليل مساحة التخزين. هاتان المعلمتان يتم الخلط بينهما أحيانًا. لا تتغير نسب تكرار البيانات بالتناسب مع فوائد تقليل البيانات حيث أن قانون العائدات المتناقصة مرتبط بالعمل بعد نقطة معينة. انظر الرسم البياني أدناه.

هذا يعني أن النسب الأقل يمكن أن تجلب مدخرات أكبر من النسبة الأعلى. على سبيل المثال، نسبة تكرار 50:1 ليست أفضل بخمس مرات من نسبة 10:1. توفر نسبة 10:1 تقليلًا بنسبة 90% من مساحة التخزين المستهلكة، بينما تزيد هذه القيمة إلى 98% بنسبة 50:1، بناءً على أن معظم التكرار قد تمت إزالته بالفعل. لمزيد من المعلومات حول كيفية حساب هذه النسب المئوية، يمكنك الاطلاع على وثيقة جمعية صناعة شبكات التخزين (SNIA) حول تكرار البيانات.

العوامل التي تؤثر على كفاءة تكرار البيانات

من الصعب توقع كفاءة تقليل البيانات حتى يتم فعليًا تجزئة البيانات بسبب عدة عوامل. وفيما يلي بعض العوامل التي تؤثر على تقليل البيانات عند استخدام التجزئة:

أنواع وسياسات نسخ البيانات. تكون التجزئة أكثر فعالية لنسخ الاحتياط الكاملة من أجل النسخ الكاملة مقارنة بالنسخ التدريجية أو التفاضلية.
معدل التغيير. إذا كان هناك العديد من تغييرات البيانات التي يجب عمل نسخ احتياطية منها، فإن نسبة التجزئة تكون أقل.
إعدادات الاحتفاظ. كلما زادت مدة تخزين نسخ البيانات في تخزين النسخ الاحتياطية، زادت فعالية تجزئة البيانات على هذا التخزين.
نوع البيانات. تكون التجزئة أقل فعالية للملفات التي تم ضغط بياناتها بالفعل، مثل JPG، PNG، MPG، AVI، MP4، ZIP، RAR، إلخ. الأمر نفسه ينطبق على البيانات الغنية بالبيانات الوصفية والمشفرة. أنواع البيانات التي تحتوي على أجزاء متكررة تكون أفضل للتجزئة.
نطاق البيانات. تكون تجزئة البيانات أكثر فعالية لنطاق كبير من البيانات. يمكن للتجزئة العالمية توفير مساحة تخزين أكبر مقارنة بالتجزئة المحلية.

ملاحظة: يعمل التكرار المحلي على جهاز واحد/قرص واحد. يحلل التكرار العالمي مجموع البيانات بأكمله على جميع العقد/أجهزة القرص للقضاء على تكرار البيانات. إذا كان لديك عقد متعددة مع تمكين التكرار المحلي على كل منها، فإن التكرار لن يكون فعالًا مثلما هو عليه عند تمكين التكرار العالمي لها.

البرمجيات والأجهزة. يمكن أن تقدم حلول البرمجيات وأجهزة التكرار معدلات تكرار أفضل من البرمجيات وحدها. على سبيل المثال، تقدم حل نسخ احتياطي من NAKIVO تكامل مع HP StoreOnce، Dell EMC Data Domain، وأجهزة تكرار NEC HYDRAstor لمعدلات تكرار تصل إلى 17:1.

تقنيات تكرار النسخ الاحتياطية

يمكن تصنيف تقنيات تكرار النسخ الاحتياطية استنادًا إلى ما يلي:

حيث يتم تكرار البيانات
متى يتم التكرار
كيفية تنفيذ التكرار

حيث يتم تكرار البيانات

يمكن تنفيذ تكرار النسخ الاحتياطية على الجانب المصدري أو على الجانب الهدفي، وتسمى تلك التقنيات تكرار الجانب المصدري وتكرار الجانب الهدفي على التوالي.

تكرار الجانب المصدري

يقلل التكرار المصدري من حمولة الشبكة لأنه يتم نقل بيانات أقل أثناء النسخ الاحتياطي. ومع ذلك، يتطلب ذلك تثبيت وكيل التكرار على كل VM أو على كل مضيف. العيب الآخر هو أن التكرار المصدري قد يبطئ الأجهزة الافتراضية بسبب الحسابات المطلوبة لتحديد كتل البيانات المكررة.

التكرار على الجانب الهدف

ينقل التكرار على الجانب الهدف البيانات أولا إلى مستودع النسخ الاحتياطي ثم يقوم بالتكرار. يتم تنفيذ المهام الحوسبة الثقيلة بواسطة البرنامج المسؤول عن التكرار.

عندما يتم التكرار

يمكن أن يكون التكرار في النسخ الاحتياطي أثناء الخط أو بعد المعالجة.

التكرار أثناء الخط يتحقق من تكرار البيانات قبل كتابتها في مستودع النسخ الاحتياطي. تتطلب هذه التقنية مساحة تخزين أقل في مستودع النسخ الاحتياطي حيث يقوم بمسح تدفق البيانات الاحتياطية من التكرار، ولكن يؤدي إلى وقت نسخ احتياطي أطول حيث يحدث التكرار أثناء الوظيفة الاحتياطية.
التكرار بعد المعالجة يعالج البيانات بعد كتابتها في مستودع النسخ الاحتياطي. من الواضح أن هذا النهج يتطلب مساحة حرة أكثر في المستودع، ولكن النسخ الاحتياطي يعمل بشكل أسرع، وجميع العمليات اللازمة تتم بعد ذلك. التكرار بعد المعالجة يسمى أيضا التكرار غير المتزامن.

كيف يتم التكرار

أكثر الأساليب شيوعا لتحديد التكرارات هي الأساليب القائمة على الهاش والهاش المعدلة.

باستعمال الطريقة Based on hash، يقسم البرمجيات التكرارية البيانات إلى قطع من طول ثابت أو متغير، ويحاسب توافق كل منها من خلال تقنيات تعميمية مثل MD5 أو SHA-1 أو SHA-256. كل واحد من هذه الطرق ينتج بصمة فريدة للقطع البياناتية، لذلك يعتبر القطع مع توافق كبير للتوافق. عيب هذه الطريقة أنها قد تتطلب موارد حاسوبية كبيرة بالفعل، خاصة في حالة ال备份 الكبير.
تستخدم الطريقة المعدلة عن طريق الhash تقنيات توليد الhash أبسط مثل CRC، وتنتج أقل من 16 بت (مقارنة بـ 256 بت في SHA-256). ومن ثم، إذا كانت القطع توافق بصورة كبيرة، يمكن المقارنة بالبتات بالبتات. إذا كانت تطابقت تمامًا، يعتبر القطع متماثلة. تتطلب هذه الطريقة وقتًا أطول من الطريقة المبنية على الhash ومع ذلك تتطلب موارد حاسوبية أقل.

تختيار برنامج الأحاديب

تخزين الأحاديب واحد من أكثر الأسباب استخدام التكرارية شعبيًا. مع ذلك، يتوجب أن تمتلك حلول البرمجيات المناسبة والمعدات للتخزين لتنفيذ هذه التكنولوجيا التقليلية للبيانات.

NAKIVO Backup & Replication هي حلول أحاديب تدعم الاستخدام بعملية تكرارية بعد المرحلة العالمية باستخدام التكرارات المعدلة، ويمكنك أيضًا تفاعل مع تكرار المصدر بالتكنولوجيا بتكافؤ أداة تكرارية مثل DELL EMC Data Domain with DD Boost، NEC HYDRAstor و HP StoreOnce

Source:
https://www.nakivo.com/blog/backup-deduplication-explained/