شعار زيفيرنت

كيف يعمل إلغاء البيانات المكررة؟ – مدونة آي بي إم

التاريخ:


كيف يعمل إلغاء البيانات المكررة؟ – مدونة آي بي إم



لقطة علوية للمصنع

شهدت السنوات الأخيرة طفرة في انتشار وحدات التخزين الذاتي. ظهرت وحدات المستودعات الكبيرة هذه على المستوى الوطني كصناعة مزدهرة لسبب واحد، وهو أن الشخص العادي لديه الآن ممتلكات أكثر مما يعرف ماذا يفعل بها.

نفس الوضع الأساسي يعاني منه عالم تكنولوجيا المعلومات أيضًا. نحن في خضم انفجار البيانات. حتى الأشياء اليومية البسيطة نسبيًا، تقوم الآن بشكل روتيني بتوليد البيانات من تلقاء نفسها بفضل إنترنت الأشياء (تقنيات عمليات) وظائف. لم يحدث من قبل في التاريخ أن تم إنشاء وجمع وتحليل هذا القدر من البيانات. ولم يحدث من قبل أن واجه المزيد من مديري البيانات مشكلة كيفية تخزين الكثير من البيانات.

قد تفشل الشركة في البداية في التعرف على المشكلة أو حجمها، ومن ثم يتعين على تلك الشركة إيجاد حل للتخزين المتزايد. وبمرور الوقت، قد تتفوق الشركة أيضًا على نظام التخزين هذا، مما يتطلب المزيد من الاستثمار. حتما، سوف تتعب الشركة من هذه اللعبة، وستبحث عن خيار أرخص وأبسط، وهو ما يقودنا إلى ذلك إلغاء البيانات المكررة.

على الرغم من أن العديد من المؤسسات تستخدم تقنيات إلغاء البيانات المكررة (أو "إلغاء البيانات المكررة") كجزء من نظام إدارة البيانات الخاص بها، إلا أنه لا يفهم الكثير حقًا ماهية عملية إلغاء البيانات المكررة وما المقصود منها. لذلك، دعونا نزيل الغموض عن إزالة البيانات المكررة ونشرح كيفية عمل إلغاء البيانات المكررة.

ماذا يفعل إلغاء البيانات المكررة؟

أولاً، دعونا نوضح مصطلحنا الرئيسي. يعد إلغاء البيانات المكررة عملية تستخدمها المؤسسات لتبسيط عمليات الاحتفاظ بالبيانات الخاصة بها وتقليل كمية البيانات التي تقوم بأرشفتها عن طريق التخلص من النسخ المتكررة من البيانات.

علاوة على ذلك، يجب أن نشير إلى أنه عندما نتحدث عن البيانات الزائدة عن الحاجة، فإننا نتحدث في الواقع على مستوى الملف ونشير إلى الانتشار الهائل لملفات البيانات. لذا، عندما نناقش جهود إلغاء البيانات المكررة، فإننا في الواقع نحتاج إلى نظام إلغاء البيانات المكررة.

ما هو الهدف الرئيسي من إلغاء البيانات المكررة؟

يحمل بعض الأشخاص فكرة غير صحيحة حول طبيعة البيانات، حيث ينظرون إليها كسلعة موجودة ببساطة ليتم جمعها وحصادها - مثل التفاح من شجرة من الفناء الخلفي لمنزلك.

والحقيقة هي أن كل ملف جديد من البيانات يكلف المال. في المقام الأول، عادةً ما يكون الحصول على هذه البيانات مكلفًا (من خلال شراء قوائم البيانات). أو يتطلب الأمر استثمارًا ماليًا كبيرًا حتى تتمكن المنظمة من جمع البيانات واستخلاصها بنفسها، حتى لو كانت بيانات تنتجها المنظمة نفسها وتجمعها بشكل عضوي. وبالتالي، فإن مجموعات البيانات هي استثمار، ومثل أي استثمار قيم، يجب حمايتها بدقة.

في هذه الحالة، نحن نتحدث عن مساحة تخزين البيانات — سواء كان ذلك في شكل خوادم الأجهزة المحلية أو من خلال سحابة التخزين عبر السحابة أرضية مركز البيانات- التي يجب شراؤها أو تأجيرها.

وبالتالي فإن النسخ المكررة من البيانات التي خضعت للنسخ تنتقص من النتيجة النهائية عن طريق فرض تكاليف تخزين إضافية تتجاوز تلك المرتبطة بنظام التخزين الأساسي ومساحة التخزين الخاصة به. باختصار، يجب تخصيص المزيد من أصول وسائط التخزين لاستيعاب البيانات الجديدة والبيانات المخزنة بالفعل. في مرحلة ما من مسار الشركة، يمكن أن تصبح البيانات المكررة مسؤولية مالية بسهولة.

لذا، باختصار، الهدف الرئيسي لإلغاء البيانات المكررة هو توفير المال من خلال تمكين المؤسسات من إنفاق مبلغ أقل على سعة التخزين الإضافية.

فوائد إضافية لإلغاء البيانات المكررة

هناك أيضًا أسباب أخرى غير سعة التخزين تدفع الشركات إلى تبني حلول إلغاء البيانات المكررة - ربما ليس أكثر أهمية من حماية البيانات وتعزيزها. تقوم المؤسسات بتحسين أعباء عمل البيانات غير المكررة وتحسينها بحيث يتم تشغيلها بكفاءة أكبر من البيانات المليئة بالملفات المكررة.

جانب آخر مهم من dedupe هو كيف يساعد في تمكين عملية سريعة وناجحة كارثة جهد الاسترداد ويقلل من مقدار فقدان البيانات الذي يمكن أن ينتج غالبًا عن مثل هذا الحدث. يساعد Dedupe على تمكين عملية نسخ احتياطي قوية بحيث يكون نظام النسخ الاحتياطي الخاص بالمؤسسة مساويًا لمهمة التعامل مع بيانات النسخ الاحتياطي الخاصة بها. بالإضافة إلى المساعدة في النسخ الاحتياطية الكاملة، يساعد برنامج dedupe أيضًا في جهود الاحتفاظ.

لا تزال هناك فائدة أخرى لإلغاء البيانات المكررة وهي مدى نجاحها جنبًا إلى جنب مع البنية التحتية لسطح المكتب الافتراضي (VDI) عمليات النشر، وذلك بفضل حقيقة أن الأقراص الصلبة الافتراضية الموجودة خلف أجهزة سطح المكتب البعيدة لـ VDI تعمل بشكل مماثل. شائع سطح المكتب كخدمة (DaaS) تتضمن المنتجات Azure Virtual Desktop من Microsoft وWindows VDI الخاص بها. هذه المنتجات تخلق أجهزة افتراضية (VMs)، والتي يتم إنشاؤها أثناء عملية المحاكاة الافتراضية للخادم. وفي المقابل، تعمل هذه الأجهزة الافتراضية على تمكين تقنية VDI.

منهجية إلغاء البيانات المكررة

الشكل الأكثر استخدامًا لإلغاء البيانات المكررة هو إلغاء البيانات المكررة. تعمل هذه الطريقة باستخدام وظائف تلقائية لتحديد التكرارات في كتل البيانات ثم إزالة تلك التكرارات. من خلال العمل على مستوى الكتلة هذا، يمكن تحليل أجزاء من البيانات الفريدة وتحديدها على أنها تستحق التحقق من صحتها والحفاظ عليها. بعد ذلك، عندما يكتشف برنامج إلغاء البيانات المكررة تكرارًا لنفس كتلة البيانات، تتم إزالة هذا التكرار ويتم تضمين مرجع للبيانات الأصلية في مكانه.

هذا هو الشكل الرئيسي للحذف، لكنه ليس الطريقة الوحيدة. في حالات الاستخدام الأخرى، تعمل طريقة بديلة لإلغاء البيانات المكررة على مستوى الملف. يقوم تخزين المثيل الفردي بمقارنة النسخ الكاملة من البيانات داخل خادم الملفات، ولكن ليس أجزاء أو كتل من البيانات. مثل الطريقة المقابلة لها، يعتمد إلغاء البيانات المكررة على الاحتفاظ بالملف الأصلي داخل نظام الملفات وإزالة النسخ الإضافية.

تجدر الإشارة إلى أن تقنيات إلغاء البيانات المكررة لا تعمل تمامًا بنفس الطريقة التي تعمل بها خوارزميات ضغط البيانات (على سبيل المثال، LZ77، LZ78)، على الرغم من أنه من الصحيح أن كلاهما يسعى إلى نفس الهدف العام المتمثل في تقليل تكرار البيانات. تحقق تقنيات إلغاء البيانات المكررة ذلك على نطاق كلي أكبر من خوارزميات الضغط، التي لا يتمثل هدفها في استبدال الملفات المتطابقة بنسخ مشتركة بقدر ما يتعلق بتشفير تكرار البيانات بشكل أكثر كفاءة.

أنواع إلغاء البيانات المكررة

هناك أنواع مختلفة من إلغاء البيانات المكررة اعتمادًا على متى تحدث عملية إلغاء البيانات المكررة:

  • إلغاء البيانات المكررة المضمنة: يحدث هذا النوع من إلغاء البيانات المكررة في الوقت الحالي - في الوقت الفعلي - أثناء تدفق البيانات داخل نظام التخزين. يحمل نظام dedupe المضمن حركة مرور أقل للبيانات لأنه لا ينقل ولا يخزن البيانات المكررة. يمكن أن يؤدي هذا إلى تقليل إجمالي مقدار النطاق الترددي الذي تحتاجه تلك المؤسسة.
  • إلغاء البيانات المكررة بعد العملية: يحدث هذا النوع من إلغاء البيانات المكررة بعد كتابة البيانات ووضعها على نوع ما من أجهزة التخزين.

تجدر الإشارة هنا إلى أن كلا النوعين من إلغاء البيانات المكررة يتأثران بحسابات التجزئة المتأصلة في إلغاء البيانات المكررة. هؤلاء التشفير تعد الحسابات جزءًا لا يتجزأ من تحديد الأنماط المتكررة في البيانات. أثناء عمليات إلغاء البيانات المكررة في الخط، يتم تنفيذ هذه الحسابات في الوقت الحالي، مما قد يهيمن على وظائف الكمبيوتر ويطغى عليها مؤقتًا. في عمليات إلغاء البيانات المكررة بعد المعالجة، يمكن إجراء حسابات التجزئة في أي وقت بعد إضافة البيانات بطريقة وفي وقت لا يثقل كاهل موارد الكمبيوتر الخاصة بالمؤسسة.

لا تنتهي الاختلافات الدقيقة بين أنواع إلغاء البيانات المكررة عند هذا الحد. تعتمد طريقة أخرى لتصنيف أنواع إلغاء البيانات المكررة على أين تحدث مثل هذه العمليات.

  • إلغاء البيانات المكررة المصدر: يحدث هذا النوع من إلغاء البيانات المكررة بالقرب من المكان الذي يتم فيه إنشاء البيانات الجديدة فعليًا. يقوم النظام بمسح تلك المنطقة والكشف عن نسخ جديدة من الملفات، والتي تتم بعد ذلك إزالتها.
  • إلغاء البيانات المكررة المستهدفة: هناك نوع آخر من إلغاء البيانات المكررة يشبه عكس إلغاء البيانات المكررة في المصدر. في إلغاء البيانات المكررة المستهدفة، يقوم النظام بإلغاء تكرار أي نسخ موجودة في مناطق أخرى غير المكان الذي تم إنشاء البيانات الأصلية فيه.

ونظرًا لوجود أنواع مختلفة من إلغاء البيانات المكررة التي يتم ممارستها، يجب على المؤسسات ذات التوجه التقدمي اتخاذ قرارات دقيقة ومدروسة فيما يتعلق بنوع إلغاء البيانات المكررة الذي تم اختياره، وموازنة هذه الطريقة مع الاحتياجات الخاصة لتلك الشركة.

في العديد من حالات الاستخدام، قد ترجع طريقة إلغاء البيانات المكررة التي تختارها المؤسسة إلى مجموعة متنوعة من المتغيرات الداخلية، مثل ما يلي:

  • كم ونوع مجموعات البيانات التي يتم إنشاؤها
  • نظام التخزين الأساسي للمنظمة
  • ما هي البيئات الافتراضية المستخدمة؟
  • ما هي التطبيقات التي تعتمد عليها الشركة

التطورات الأخيرة في إلغاء البيانات المكررة

كما هو الحال مع كل مخرجات الكمبيوتر، فإن إلغاء البيانات المكررة على وشك الاستفادة بشكل متزايد الذكاء الاصطناعي (منظمة العفو الدولية) مع استمرارها في التطور. سيصبح Dedupe أكثر تعقيدًا لأنه يطور المزيد من الفروق الدقيقة التي تساعده في السعي للعثور على أنماط التكرار أثناء فحص كتل البيانات.

أحد الاتجاهات الناشئة في الحذف هو التعلم المعزز. يستخدم هذا نظام المكافآت والعقوبات (كما هو الحال في التدريب المعزز) ويطبق سياسة مثالية لفصل السجلات أو دمجها بدلاً من ذلك.

هناك اتجاه آخر يستحق المشاهدة وهو استخدام أساليب المجموعة، حيث يتم استخدام نماذج أو خوارزميات مختلفة جنبًا إلى جنب لضمان دقة أكبر في عملية الحذف.

المعضلة المستمرة

أصبح عالم تكنولوجيا المعلومات يركز بشكل متزايد على القضية المستمرة المتمثلة في انتشار البيانات وما يجب فعله حيال ذلك. تجد العديد من الشركات نفسها في موقف حرج يتمثل في رغبتها في الاحتفاظ بجميع البيانات التي عملت على جمعها، وكذلك الرغبة في الاحتفاظ ببياناتها الجديدة الفائضة في أي حاوية تخزين ممكنة، حتى لو كان ذلك فقط لإبعادها عن الطريق.

وبينما تستمر هذه المعضلة، سيستمر التركيز على جهود إلغاء البيانات المكررة حيث ترى المؤسسات أن إلغاء البيانات المكررة هو البديل الأرخص لشراء المزيد من سعة التخزين. لأنه في نهاية المطاف، على الرغم من أننا نفهم بشكل حدسي أن الأعمال تحتاج إلى البيانات، فإننا نعلم أيضًا أن البيانات تتطلب في كثير من الأحيان إلغاء البيانات المكررة.

تعرف على كيف يمكن أن يساعدك IBM Storage FlashSystem في تلبية احتياجات التخزين الخاصة بك

هل كان المقال مساعدا؟!

نعملا


المزيد من Cloud




استمرارية الأعمال مقابل التعافي من الكوارث: ما هي الخطة المناسبة لك؟

7 دقيقة قراءة - إن خطط استمرارية الأعمال والتعافي من الكوارث هي إستراتيجيات لإدارة المخاطر تعتمد عليها الشركات للتحضير للحوادث غير المتوقعة. على الرغم من أن المصطلحات مرتبطة ارتباطًا وثيقًا، إلا أن هناك بعض الاختلافات الرئيسية التي تستحق أخذها في الاعتبار عند اختيار ما هو مناسب لك: خطة استمرارية الأعمال (BCP): خطة استمرارية الأعمال هي خطة مفصلة تحدد الخطوات التي ستتخذها المؤسسة للعودة إلى وظائف العمل العادية في حالة وقوع كارثة. حيث قد تركز أنواع أخرى من الخطط على جانب واحد محدد من التعافي والانقطاع...




IBM Tech Now: 29 يناير 2024

<1 دقيقة قراءة - مرحبًا بـ IBM Tech Now، سلسلة مقاطع الفيديو الخاصة بنا على الويب والتي تعرض أحدث وأعظم الأخبار والإعلانات في عالم التكنولوجيا. تأكد من الاشتراك في قناتنا على YouTube ليتم إعلامك في كل مرة يتم فيها نشر فيديو IBM Tech Now جديد. IBM Tech Now: الحلقة 91 في هذه الحلقة، نغطي المواضيع التالية: IBM Think 2024 IBM Cloud Reservations on IBM Cloud Virtual Servers for VPC Verdantix's Green Quadrant ابق متصلاً يمكنك التحقق من IBM...




يتم الآن أخذ الحجوزات: IBM Cloud Virtual Servers for VPC

2 دقيقة قراءة - بينما تعمل المؤسسات على تقليل الإنفاق داخل البيئات السحابية للمؤسسات، فإنها غالبًا ما تواجه التحدي المتمثل في توفير خيار واحد يناسب جميع خيارات الدفع من خلال موفري الخدمات السحابية الخاصة بهم. ومع تحول خرائط الطريق والأولويات على خلفية انخفاض رأس المال وتشديد عوائد الاستثمار، تهدف المؤسسات إلى تقليل مخاطر الإنفاق على مدار العام وإنشاء بيئات ميزانية أكثر قابلية للتنبؤ بها. عندما يتعلق الأمر بتصميم عمليات الحوسبة السحابية الخاصة بك، فإن التخطيط المتقدم يؤتي ثماره مع IBM Cloud Reservations على IBM Cloud Virtual Servers for VPC. ما هي شركة آي بي إم...




كيفية بناء استراتيجية ناجحة للتعافي من الكوارث

6 دقيقة قراءة - سواء كانت صناعتك تواجه تحديات ناجمة عن صراعات جيوسياسية، أو تداعيات جائحة عالمي، أو عدوان متزايد في مجال الأمن السيبراني، فإن ناقل التهديد للمؤسسات الحديثة قوي بلا شك. توفر استراتيجيات التعافي من الكوارث إطار العمل لأعضاء الفريق لاستعادة الأعمال وتشغيلها بعد وقوع حدث غير مخطط له. في جميع أنحاء العالم، تتزايد شعبية استراتيجيات التعافي من الكوارث بشكل مفهوم. في العام الماضي، أنفقت الشركات 219 مليار دولار أمريكي على الأمن السيبراني والحلول وحدها، بزيادة قدرها 12٪ عن عام 2022، وفقًا لتقرير حديث صادر عن…

نشرات آي بي إم الإخبارية

احصل على رسائلنا الإخبارية وتحديثات المواضيع التي تقدم أحدث القيادة الفكرية والرؤى حول الاتجاهات الناشئة.

اشترك الآن

المزيد من الرسائل الإخبارية

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة