شعار زيفيرنت

تقنيات وأساليب لمراقبة نماذج اللغات الكبيرة على AWS | خدمات الويب الأمازون

التاريخ:

أحدثت نماذج اللغة الكبيرة (LLMs) ثورة في مجال معالجة اللغة الطبيعية (NLP)، مما أدى إلى تحسين مهام مثل ترجمة اللغة، وتلخيص النص، وتحليل المشاعر. ومع ذلك، مع استمرار نمو هذه النماذج من حيث الحجم والتعقيد، أصبح مراقبة أدائها وسلوكها أمرًا صعبًا بشكل متزايد.

تعد مراقبة أداء وسلوك LLMs مهمة حاسمة لضمان سلامتهم وفعاليتهم. توفر بنيتنا المقترحة حلاً قابلاً للتطوير والتخصيص لمراقبة LLM عبر الإنترنت، مما يمكّن الفرق من تصميم حل المراقبة الخاص بك ليناسب حالات الاستخدام والمتطلبات المحددة الخاصة بك. باستخدام خدمات AWS، توفر بنيتنا رؤية في الوقت الفعلي لسلوك LLM وتمكن الفرق من تحديد أي مشكلات أو حالات شاذة ومعالجتها بسرعة.

في هذا المنشور، نعرض بعض المقاييس لمراقبة LLM عبر الإنترنت والبنية الخاصة بها للتوسع باستخدام خدمات AWS مثل الأمازون CloudWatch و AWS لامدا. يوفر هذا حلاً قابلاً للتخصيص يتجاوز ما هو ممكن تقييم النموذج وظائف مع أمازون بيدروك.

نظرة عامة على الحل

أول شيء يجب مراعاته هو أن المقاييس المختلفة تتطلب اعتبارات حسابية مختلفة. من الضروري وجود بنية معيارية، حيث يمكن لكل وحدة استيعاب بيانات الاستدلال النموذجي وإنتاج مقاييسها الخاصة.

نقترح أن تأخذ كل وحدة طلبات الاستدلال الواردة إلى LLM، وتمرير أزواج الموجه والإكمال (الاستجابة) إلى وحدات الحوسبة المترية. كل وحدة مسؤولة عن حساب المقاييس الخاصة بها فيما يتعلق بموجه الإدخال والإكمال (الاستجابة). يتم تمرير هذه المقاييس إلى CloudWatch، والتي يمكنها تجميعها والعمل مع تنبيهات CloudWatch لإرسال إشعارات بشأن ظروف محددة. ويوضح الرسم البياني التالي هذه البنية.

الشكل 1: وحدة الحساب المتري - نظرة عامة على الحل

الشكل 1: وحدة الحساب المتري - نظرة عامة على الحل

يتضمن سير العمل الخطوات التالية:

  1. يقدم المستخدم طلبًا إلى Amazon Bedrock كجزء من تطبيق أو واجهة مستخدم.
  2. يحفظ Amazon Bedrock الطلب والإكمال (الاستجابة) في خدمة تخزين أمازون البسيطة (Amazon S3) حسب التكوين الخاص بـ تسجيل الاستدعاء.
  3. يقوم الملف المحفوظ على Amazon S3 بإنشاء حدث يطلق وظيفة لامدا. تستدعي الدالة الوحدات النمطية.
  4. تقوم الوحدات بنشر المقاييس الخاصة بها مقاييس CloudWatch.
  5. وأجهزة الإنذار يمكن إخطار فريق التطوير بقيم القياس غير المتوقعة.

الشيء الثاني الذي يجب مراعاته عند تنفيذ مراقبة LLM هو اختيار المقاييس الصحيحة لتتبعها. على الرغم من وجود العديد من المقاييس المحتملة التي يمكنك استخدامها لمراقبة أداء LLM، إلا أننا نوضح بعضًا من أوسعها في هذا المنشور.

في الأقسام التالية، نسلط الضوء على عدد قليل من مقاييس الوحدة ذات الصلة وبنية وحدة الحوسبة المترية الخاصة بها.

التشابه الدلالي بين الموجه والاكتمال (الاستجابة)

عند تشغيل LLMs، يمكنك اعتراض الموجه والإكمال (الاستجابة) لكل طلب وتحويلها إلى عمليات تضمين باستخدام نموذج التضمين. التضمينات هي ناقلات عالية الأبعاد تمثل المعنى الدلالي للنص. أمازون تيتان يوفر مثل هذه النماذج من خلال Titan Embeddings. من خلال أخذ مسافة مثل جيب التمام بين هذين المتجهين، يمكنك تحديد مدى التشابه الدلالي بين الموجه والإكمال (الاستجابة). يمكنك استخدام SciPy or تعلم الحروف لحساب مسافة جيب التمام بين المتجهات. يوضح الرسم البياني التالي بنية وحدة الحوسبة المترية هذه.

الشكل 2: وحدة الحساب المتري - التشابه الدلالي

الشكل 2: وحدة الحساب المتري - التشابه الدلالي

يتضمن سير العمل هذا الخطوات الأساسية التالية:

  1. تتلقى وظيفة Lambda رسالة متدفقة عبر أمازون كينسيس يحتوي على زوج موجه وإكمال (استجابة).
  2. تحصل الدالة على تضمين لكل من الموجه والإكمال (الاستجابة)، وتحسب مسافة جيب التمام بين المتجهين.
  3. ترسل الوظيفة تلك المعلومات إلى مقاييس CloudWatch.

العاطفة والسمية

تسمح لك مراقبة المشاعر بقياس النغمة العامة والتأثير العاطفي للاستجابات، في حين يوفر تحليل السمية مقياسًا مهمًا لوجود لغة مسيئة أو غير محترمة أو ضارة في مخرجات LLM. وينبغي مراقبة أي تحولات في المشاعر أو السمية عن كثب للتأكد من أن النموذج يتصرف كما هو متوقع. يوضح الرسم البياني التالي وحدة الحساب المتري.

الشكل 3: وحدة الحساب المترية - المشاعر والسمية

الشكل 3: وحدة الحساب المترية - المشاعر والسمية

يتضمن سير العمل الخطوات التالية:

  1. تتلقى وظيفة Lambda زوجًا من المطالبات والإكمال (الاستجابة) من خلال Amazon Kinesis.
  2. من خلال تنسيق AWS Step Functions، تستدعي الوظيفة فهم الأمازون للكشف عن عاطفة و سمية.
  3. تقوم الوظيفة بحفظ المعلومات في مقاييس CloudWatch.

لمزيد من المعلومات حول اكتشاف المشاعر والسمية باستخدام Amazon Comprehend، راجع قم ببناء متنبئ قوي للسمية يعتمد على النص و قم بوضع علامة على المحتوى الضار باستخدام Amazon Comprehend لكشف السمية.

نسبة الرفض

زيادة حالات الرفض، كما هو الحال عندما يرفض LLM الاكتمال بسبب نقص المعلومات، قد يعني إما أن المستخدمين الضارين يحاولون استخدام LLM بطرق تهدف إلى كسر الحماية، أو أن توقعات المستخدمين لا يتم تلبيتها وأنهم يحصلون على استجابات ذات قيمة منخفضة. إحدى الطرق لقياس مدى تكرار حدوث ذلك هي مقارنة حالات الرفض القياسية من نموذج LLM المستخدم مع الاستجابات الفعلية من LLM. على سبيل المثال، فيما يلي بعض عبارات الرفض الشائعة في Anthropic's Claude v2 LLM:

“Unfortunately, I do not have enough context to provide a substantive response. However, I am an AI assistant created by Anthropic to be helpful, harmless, and honest.”

“I apologize, but I cannot recommend ways to…”

“I'm an AI assistant created by Anthropic to be helpful, harmless, and honest.”

في مجموعة ثابتة من المطالبات، يمكن أن تكون الزيادة في حالات الرفض هذه إشارة إلى أن النموذج أصبح شديد الحذر أو الحساسية. وينبغي أيضا تقييم الحالة العكسية. يمكن أن تكون إشارة إلى أن النموذج أصبح الآن أكثر عرضة للانخراط في محادثات سامة أو ضارة.

للمساعدة في سلامة النموذج ونسبة رفض النموذج، يمكننا مقارنة الاستجابة بمجموعة من عبارات الرفض المعروفة من LLM. قد يكون هذا مصنفًا فعليًا يمكنه تفسير سبب رفض النموذج للطلب. يمكنك قياس مسافة جيب التمام بين الاستجابة واستجابات الرفض المعروفة من النموذج الجاري مراقبته. يوضح الرسم البياني التالي وحدة الحساب المتري هذه.

الشكل 4: وحدة الحساب المتري - نسبة حالات الرفض

الشكل 4: وحدة الحساب المتري - نسبة حالات الرفض

يتكون سير العمل من الخطوات التالية:
  1. تتلقى وظيفة Lambda مطالبة وإكمالًا (استجابة) وتحصل على تضمين من الاستجابة باستخدام Amazon Titan.
  2. تحسب الوظيفة مسافة جيب التمام أو الإقليدية بين الاستجابة ومطالبات الرفض الموجودة المخزنة مؤقتًا في الذاكرة.
  3. ترسل الوظيفة هذا المتوسط ​​إلى مقاييس CloudWatch.

خيار آخر هو استخدام مطابقة غامضة لنهج مباشر ولكن أقل قوة لمقارنة حالات الرفض المعروفة بمخرجات LLM. الرجوع إلى توثيق بايثون على سبيل المثال.

نبذة عامة

تعد إمكانية ملاحظة LLM ممارسة مهمة لضمان الاستخدام الموثوق والجدير بالثقة لـ LLM. يمكن أن تساعدك مراقبة وفهم وضمان دقة وموثوقية LLMs في تخفيف المخاطر المرتبطة بنماذج الذكاء الاصطناعي هذه. من خلال مراقبة الهلوسة والإكمال السيئ (الاستجابات) والمطالبات، يمكنك التأكد من بقاء LLM الخاص بك على المسار الصحيح وتقديم القيمة التي تبحث عنها أنت والمستخدمون لديك. في هذا المنشور، ناقشنا بعض المقاييس لعرض الأمثلة.

لمزيد من المعلومات حول تقييم نماذج الأساس، راجع استخدم SageMaker Clarify لتقييم نماذج الأساس، وتصفح المزيد مثال دفاتر الملاحظات متاح في مستودع جيثب لدينا. يمكنك أيضًا استكشاف طرق تفعيل تقييمات LLM على نطاق واسع تشغيل تقييم LLM على نطاق واسع باستخدام خدمات Amazon SageMaker Clarify وMLOps. وأخيرا، نوصي بالإشارة إلى تقييم نماذج اللغات الكبيرة من حيث الجودة والمسؤولية لمعرفة المزيد حول تقييم LLMs.


حول المؤلف

برونو كلاين هو أحد كبار مهندسي التعلم الآلي في ممارسة تحليلات الخدمات الاحترافية في AWS. إنه يساعد العملاء على تنفيذ حلول البيانات والتحليلات الضخمة. خارج العمل، يستمتع بقضاء الوقت مع العائلة والسفر وتجربة طعام جديد.

رشابه لوخاندي هو أحد كبار مهندسي البيانات وتعلم الآلة لدى ممارسة تحليلات الخدمات الاحترافية في AWS. إنه يساعد العملاء على تنفيذ حلول البيانات الضخمة والتعلم الآلي والتحليلات. خارج العمل، يستمتع بقضاء الوقت مع العائلة، والقراءة، والجري، ولعب الجولف.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة