شعار زيفيرنت

لماذا يتطلب صعود LLMs و GenAI نهجًا جديدًا لتخزين البيانات - DATAVERSITY

التاريخ:

أدت الموجة الجديدة من التعلم الآلي المتعطش للبيانات (ML) والعمليات التي تعتمد على الذكاء الاصطناعي (GenAI) والحلول الأمنية إلى زيادة إلحاح الشركات لتبني أساليب جديدة لتخزين البيانات. تحتاج هذه الحلول إلى الوصول إلى كميات هائلة من البيانات للتدريب النموذجي وقابلية المراقبة. ومع ذلك، لكي تكون خطوط تعلم الآلة ناجحة، يجب أن تستخدم منصات البيانات التي توفر تخزينًا "ساخنًا" طويل الأجل للبيانات - حيث يمكن الوصول إلى جميع البيانات بسهولة للاستعلام والتدريب - بأسعار التخزين البارد.

لسوء الحظ، فإن العديد من منصات البيانات باهظة الثمن للغاية بحيث لا يمكن الاحتفاظ بالبيانات على نطاق واسع. غالبًا ما تضطر الشركات التي تستوعب تيرابايت من البيانات يوميًا إلى نقل تلك البيانات بسرعة إلى التخزين البارد - أو التخلص منها تمامًا - لتقليل التكاليف. لم يكن هذا النهج مثاليًا على الإطلاق، ولكنه وضع أصبح أكثر إشكالية في عصر الذكاء الاصطناعي لأنه يمكن استخدام تلك البيانات في عمليات تدريب قيمة.

تسلط هذه المقالة الضوء على الحاجة الملحة لإجراء إصلاح استراتيجي للبنية التحتية لتخزين البيانات لاستخدامها من قبل نماذج اللغات الكبيرة (LLMs) و ML. يجب أن تكون حلول التخزين أقل تكلفة على الأقل من حيث الحجم من الحلول القائمة دون التضحية بقابلية التوسع أو الأداء. ويجب أيضًا تصميمها لاستخدام البنى السحابية المستندة إلى الأحداث والتي تحظى بشعبية متزايدة. 

طلب ML وGenAI على البيانات

المبدأ واضح ومباشر: كلما زادت جودة البيانات المتاحة، أصبحت نماذج تعلم الآلة والمنتجات المرتبطة بها أكثر فعالية. تميل مجموعات بيانات التدريب الأكبر حجمًا إلى الارتباط بدقة التعميم المحسنة - قدرة النموذج على عمل تنبؤات دقيقة بشأن البيانات الجديدة غير المرئية. يمكن لمزيد من البيانات إنشاء مجموعات للتدريب والتحقق من الصحة ومجموعات الاختبار. يعد التعميم، على وجه الخصوص، أمرًا حيويًا في السياقات الأمنية حيث تتغير التهديدات السيبرانية بسرعة، ويعتمد الدفاع الفعال على التعرف على هذه التغييرات. وينطبق نفس النمط أيضًا على صناعات متنوعة مثل الإعلان الرقمي واستكشاف النفط والغاز.

ومع ذلك، فإن القدرة على التعامل مع حجم البيانات على نطاق واسع ليست المطلب الوحيد لحلول التخزين. يجب أن تكون البيانات متاحة بسهولة وبشكل متكرر لدعم الطبيعة التجريبية والتكرارية لبناء النماذج والتدريب. ويضمن ذلك إمكانية تحسين النماذج وتحديثها باستمرار أثناء تعلمها من البيانات والملاحظات الجديدة، مما يؤدي إلى تحسين الأداء والموثوقية بشكل تدريجي. بمعنى آخر، تتطلب حالات استخدام ML وGenAI بيانات "ساخنة" طويلة المدى.

لماذا يتطلب تعلم الآلة وGenAI البيانات الساخنة؟ 

عادةً ما تقوم حلول المعلومات الأمنية وإدارة الأحداث (SIEM) وقابلية المراقبة بتقسيم البيانات إلى مستويات ساخنة وباردة لتقليل النفقات التي يمكن أن تكون باهظة بالنسبة للعملاء. على الرغم من أن التخزين البارد أكثر فعالية من حيث التكلفة من التخزين الساخن، إلا أنه ليس متاحًا بسهولة للاستعلام. يعد التخزين الساخن ضروريًا للبيانات المتكاملة للعمليات اليومية التي تحتاج إلى وصول متكرر مع أوقات استجابة سريعة للاستعلام، مثل قواعد بيانات العملاء والتحليلات في الوقت الفعلي وسجلات أداء CDN. وعلى العكس من ذلك، يعمل التخزين البارد كأرشيف فعال من حيث التكلفة على حساب الأداء. الوصول إلى البيانات الباردة والاستعلام عنها بطيء. غالبًا ما يستغرق نقلها مرة أخرى إلى الطبقة الساخنة ساعات أو أيامًا، مما يجعلها غير مناسبة للعمليات التجريبية والتكرارية المرتبطة ببناء التطبيقات التي تدعم التعلم الآلي.

تعمل فرق علوم البيانات عبر مراحل، بما في ذلك التحليل الاستكشافي وهندسة الميزات والتدريب وصيانة النماذج المنشورة. تتضمن كل مرحلة تحسينًا وتجريبًا مستمرًا. أي تأخير أو احتكاك تشغيلي، مثل استرجاع البيانات من التخزين البارد، يزيد من الوقت والتكاليف لتطوير منتجات عالية الجودة مدعمة بالذكاء الاصطناعي.

المقايضات بسبب ارتفاع تكاليف التخزين

منصات مثل Splunk، رغم قيمتها، يُنظر إليها على أنها باهظة الثمن. استنادًا إلى أسعارها في AWS Marketplace، قد يكلف الاحتفاظ بجيجابايت واحد من البيانات الساخنة لمدة شهر حوالي 2.19 دولارًا. قارن ذلك بتخزين الكائنات AWS S3، حيث تبدأ التكاليف من 0.023 دولارًا لكل جيجابايت. على الرغم من أن هذه المنصات تضيف قيمة إلى البيانات من خلال الفهرسة والعمليات الأخرى، إلا أن المشكلة الأساسية تظل قائمة: التخزين على هذه المنصات مكلف. لإدارة التكاليف، تعتمد العديد من المنصات سياسات صارمة للاحتفاظ بالبيانات، حيث يتم الاحتفاظ بالبيانات في التخزين الساخن لمدة تتراوح من 30 إلى 90 يومًا - وغالبًا ما يصل إلى سبعة أيام - قبل الحذف أو النقل إلى التخزين البارد، حيث يمكن أن يستغرق الاسترجاع ما يصل إلى 24 ساعة.

عندما يتم نقل البيانات إلى مخزن بارد، فإنها عادةً ما تصبح بيانات مظلمة - بيانات يتم تخزينها ونسيانها. ولكن الأسوأ من ذلك هو التدمير التام للبيانات. غالبًا ما يتم الترويج لها على أنها أفضل الممارسات، وتشمل هذه الممارسات أخذ العينات والتلخيص وتجاهل الميزات (أو الحقول)، وكلها تقلل من قيمة البيانات مقابل نماذج تعلم الآلة للتدريب.

الحاجة إلى نموذج جديد لتخزين البيانات

تعد إمكانية المراقبة الحالية وSIEM وخدمات تخزين البيانات أمرًا بالغ الأهمية للعمليات التجارية الحديثة وتبرر جزءًا كبيرًا من ميزانيات الشركات. تمر كمية هائلة من البيانات عبر هذه المنصات ويتم فقدانها لاحقًا، ولكن هناك العديد من حالات الاستخدام حيث يجب الاحتفاظ بها لمشاريع LLM وGenAI. ومع ذلك، إذا لم يتم تخفيض تكاليف تخزين البيانات الساخنة بشكل كبير، فسوف يعيق ذلك التطوير المستقبلي للمنتجات التي تدعم LLM وGenAI. تسمح البنى الناشئة التي تفصل بين وحدات التخزين وتفصلها بتوسيع نطاق الحوسبة والتخزين بشكل مستقل وتوفر أداءً عاليًا للاستعلام، وهو أمر بالغ الأهمية. توفر هذه البنى أداءً مشابهًا لمحركات الأقراص ذات الحالة الصلبة بأسعار قريبة من أسعار تخزين الكائنات. 

في الختام، فإن التحدي الرئيسي في هذا التحول ليس تقنيا بل اقتصاديا. يجب على البائعين الحاليين لحلول المراقبة وSIEM وتخزين البيانات التعرف على العوائق المالية التي تعترض خرائط طريق منتجات الذكاء الاصطناعي الخاصة بهم ودمج تقنيات تخزين البيانات من الجيل التالي في البنية التحتية الخاصة بهم. سيساعد تحويل اقتصاديات البيانات الضخمة على تحقيق إمكانات الأمن وإمكانية المراقبة القائمة على الذكاء الاصطناعي.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة