شعار زيفيرنت

باحثو مايكروسوفت يقدمون CodeOcean وWaveCode

التاريخ:

أدت التطورات الحديثة في الذكاء الاصطناعي، وتحديدًا في مجال نماذج اللغات الكبيرة (LLMs)، إلى تطورات ملحوظة في نماذج لغة البرمجة. لقد قام باحثون من مايكروسوفت أدخلت أداتين مبتكرتين في هذا المجال: WaveCoder وCodeOcean، مما يمثل قفزة كبيرة للأمام في مجال ضبط التعليمات لنماذج لغة البرمجة.

WaveCoder: كود مضبوط LLM

WaveCoder هو نموذج لغة كود مضبوط بدقة (Code LLM) مصمم خصيصًا لتحسين ضبط التعليمات. يُظهر النموذج أداءً فائقًا عبر العديد من المهام المتعلقة بالرمز، ويتفوق باستمرار على النماذج مفتوحة المصدر الأخرى بنفس المستوى من الضبط الدقيق. تعتبر فعالية WaveCoder ملحوظة بشكل خاص في مهام مثل إنشاء التعليمات البرمجية والإصلاح والتلخيص.

CodeOcean: مجموعة بيانات غنية لتحسين ضبط التعليمات

CodeOcean، محور هذا البحث، عبارة عن مجموعة بيانات منسقة بدقة تضم 20,000 نسخة تعليمات عبر أربع مهام مهمة متعلقة بالرمز: تلخيص التعليمات البرمجية، وإنشاء التعليمات البرمجية، وترجمة التعليمات البرمجية، وإصلاح التعليمات البرمجية. هدفها الأساسي هو رفع مستوى أداء Code LLMs من خلال ضبط التعليمات الدقيقة. تميز CodeOcean نفسها من خلال التركيز على جودة البيانات وتنوعها، مما يضمن أداءً فائقًا عبر المهام المتنوعة المتعلقة بالرمز.

نهج جديد لضبط التعليمات

ويكمن الابتكار في طريقة تسخير بيانات التعليمات المتنوعة وعالية الجودة من التعليمات البرمجية مفتوحة المصدر لإحداث ثورة في ضبط التعليمات. يعالج هذا النهج التحديات المرتبطة بتوليد بيانات التعليم، مثل وجود بيانات مكررة ومحدودية التحكم في جودة البيانات. من خلال تصنيف بيانات التعليمات إلى أربع مهام عالمية مرتبطة بالرمز وتحسين بيانات التعليمات، ابتكر الباحثون طريقة قوية لتعزيز قدرات التعميم للنماذج المضبوطة بدقة.

أهمية جودة البيانات وتنوعها

يؤكد هذا البحث الرائد على أهمية جودة البيانات وتنوعها في ضبط التعليم. يعمل إطار عمل Generator-Discriminator الجديد القائم على LLM على تعزيز كود المصدر، مما يوفر تحكمًا واضحًا في جودة البيانات أثناء عملية الإنشاء. تتفوق هذه المنهجية في توليد بيانات تعليمات أكثر أصالة، وبالتالي تحسين القدرة على تعميم النماذج المضبوطة بدقة.

الأداء المعياري لـ WaveCoder

لقد تم تقييم نماذج WaveCoder بدقة عبر مجالات مختلفة، مما يؤكد من جديد فعاليتها في سيناريوهات متنوعة. إنهم يتفوقون باستمرار على نظرائهم عبر العديد من المعايير، بما في ذلك HumanEval وMBPP وHumanEvalPack. تسلط المقارنة مع مجموعة بيانات CodeAlpaca الضوء على تفوق CodeOcean في تحسين بيانات التعليمات ورفع فطنة النماذج الأساسية في متابعة التعليمات.

التداعيات على السوق

بالنسبة للسوق، يمثل CodeOcean وWaveCoder من Microsoft حقبة جديدة من نماذج لغة البرمجة الأكثر قدرة وقدرة على التكيف. توفر هذه الابتكارات حلولاً محسنة لمجموعة من التطبيقات والصناعات، مما يعزز براعة التعميم للماجستير في القانون وتوسيع نطاق تطبيقها في سياقات مختلفة.

التوجهات المستقبلية

وبالنظر إلى المستقبل، من المتوقع حدوث المزيد من التحسينات في أداء المهمة الأحادية وقدرة تعميم النموذج. سيكون التفاعل بين المهام المختلفة ومجموعات البيانات الأكبر من مجالات التركيز الرئيسية لمواصلة تطوير مجال ضبط التعليمات لنماذج لغة البرمجة.

وفي الختام

يمثل طرح Microsoft لـ WaveCoder وCodeOcean لحظة محورية في تطور نماذج لغة البرمجة. ومن خلال التركيز على جودة البيانات والتنوع في ضبط التعليمات، تمهد هذه الأدوات الطريق لنماذج أكثر تطورًا وكفاءة وقابلية للتكيف ومجهزة بشكل أفضل للتعامل مع مجموعة واسعة من المهام المتعلقة بالتعليمات البرمجية. لا يعمل هذا البحث على تعزيز قدرات النماذج اللغوية الكبيرة فحسب، بل يفتح أيضًا آفاقًا جديدة لتطبيقها في مختلف الصناعات، مما يمثل علامة بارزة في مجال الذكاء الاصطناعي.

مصدر الصورة: Shutterstock

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة