شعار زيفيرنت

جوهر الموضوع: إزالة الغموض عن النسخ في تدريب ماجستير إدارة الأعمال - البيانات

التاريخ:

وبالنظر إلى الأشهر الخمسة عشر الماضية، فقد هيمن التقدم المحرز في الذكاء الاصطناعي التوليدي ونماذج اللغات الكبيرة (LLMs) بعد تقديم ChatGPT وإتاحته للجمهور على العناوين الرئيسية. 

كانت لبنة البناء لهذا التقدم هي بنية نموذج المحولات التي حددها فريق من باحثي Google في ورقة بحثية بعنوان "الاهتمام هو كل ما تحتاجه". كما يوحي العنوان، فإن السمة الرئيسية لجميع نماذج المحولات هي آلية الاهتمام، المحددة في الورقة على النحو التالي:

"يمكن وصف وظيفة الانتباه على أنها تعيين استعلام ومجموعة من أزواج القيمة الرئيسية إلى المخرجات، حيث يكون الاستعلام والمفاتيح والقيم والمخرجات كلها متجهات. يتم حساب الإخراج كمجموع مرجح للقيم، حيث يتم حساب الوزن المخصص لكل قيمة بواسطة دالة توافق الاستعلام مع المفتاح المقابل.

من سمات نماذج الذكاء الاصطناعي التوليدية الاستهلاك الهائل لمدخلات البيانات، والتي يمكن أن تتكون من نص أو صور أو ملفات صوتية أو ملفات فيديو أو أي مجموعة من المدخلات (وهي حالة يشار إليها عادة باسم "متعدد الوسائط"). من منظور حقوق الطبع والنشر، هناك سؤال مهم (من بين العديد من الأسئلة المهمة) التي يجب طرحها وهو ما إذا كان يتم الاحتفاظ بمواد التدريب في نموذج لغة كبير (LLM) التي ينتجها بائعو LLM المختلفون. للمساعدة في الإجابة على هذا السؤال، نحتاج إلى فهم كيفية معالجة المواد النصية. بالتركيز على النص، ما يلي هو وصف موجز وغير تقني لهذا الجانب بالضبط من تدريب LLM. 

يتواصل البشر باللغة الطبيعية عن طريق وضع الكلمات في تسلسل؛ القواعد المتعلقة بالتسلسل والشكل المحدد للكلمة تمليها اللغة المحددة (على سبيل المثال، الإنجليزية). إن جزءًا أساسيًا من بنية جميع أنظمة البرمجيات التي تعالج النص (وبالتالي جميع أنظمة الذكاء الاصطناعي التي تقوم بذلك) هو كيفية تمثيل هذا النص بحيث يمكن أداء وظائف النظام بكفاءة أكبر. ولذلك، فإن الخطوة الأساسية في معالجة المدخلات النصية في نماذج اللغة هي تقسيم مدخلات المستخدم إلى "كلمات" خاصة يمكن لنظام الذكاء الاصطناعي فهمها. تسمى هذه الكلمات الخاصة "الرموز". يُطلق على المكون المسؤول عن ذلك اسم "الرمز المميز". هناك أنواع عديدة من الرموز المميزة. على سبيل المثال، يستخدم OpenAI وAzure OpenAI طريقة ترميز الكلمات الفرعية تسمى "Byte-Pair Encoding (BPE)" للنماذج المستندة إلى المحول التوليدي المُدرب مسبقًا (GPT). BPE هي طريقة تقوم بدمج أزواج الأحرف أو البايتات الأكثر تكرارًا في رمز مميز واحد، حتى يتم الوصول إلى عدد معين من الرموز المميزة أو حجم المفردات. كلما زاد حجم المفردات، كلما كانت النصوص التي يمكن للنموذج توليدها أكثر تنوعًا وتعبيرًا.

بمجرد أن يقوم نظام الذكاء الاصطناعي بتعيين نص الإدخال إلى رموز مميزة، فإنه يقوم بتشفير الرموز المميزة إلى أرقام وتحويل التسلسلات التي يعالجها كمتجهات يشار إليها باسم "تضمين الكلمات". المتجه عبارة عن مجموعة مرتبة من الأرقام، ويمكنك اعتباره صفًا أو عمودًا في جدول. هذه المتجهات عبارة عن تمثيلات للرموز المميزة التي تحافظ على تمثيلها الأصلي للغة الطبيعية الذي تم تقديمه كنص. من المهم أن نفهم دور تضمينات الكلمات عندما يتعلق الأمر بحقوق الطبع والنشر لأن التضمينات تشكل تمثيلات (أو ترميزات) لجمل كاملة، أو حتى فقرات، وبالتالي، في مجموعات المتجهات، حتى المستندات بأكملها في مساحة متجهة عالية الأبعاد. ومن خلال هذه التضمينات، يلتقط نظام الذكاء الاصطناعي ويخزن المعنى والعلاقات بين الكلمات من اللغة الطبيعية. 

يتم استخدام التضمين في كل مهمة تقريبًا ينفذها نظام الذكاء الاصطناعي التوليدي (على سبيل المثال، إنشاء النص، وتلخيص النص، وتصنيف النص، وترجمة النص، وتوليد الصور، وتوليد التعليمات البرمجية، وما إلى ذلك). عادةً ما يتم تخزين تضمينات الكلمات في قواعد بيانات المتجهات، ولكن الوصف التفصيلي لجميع طرق التخزين يقع خارج نطاق هذا المنشور نظرًا لوجود مجموعة واسعة من البائعين والعمليات والممارسات المستخدمة.

كما ذكرنا سابقًا، تعتمد جميع برامج LLM تقريبًا على بنية المحولات، التي تستدعي آلية الانتباه. ويسمح هذا الأخير لتقنية الذكاء الاصطناعي بعرض الجمل بأكملها، وحتى الفقرات، ككل وليس مجرد تسلسل من الأحرف. يتيح ذلك للبرنامج التقاط السياقات المختلفة التي يمكن أن تحدث فيها الكلمة، وبما أن هذه السياقات يتم توفيرها من خلال الأعمال المستخدمة في التدريب، بما في ذلك الأعمال المحمية بحقوق الطبع والنشر، فهي ليست عشوائية. وبهذه الطريقة، يتم الحفاظ على الاستخدام الأصلي للكلمات، والتعبير عن العمل الأصلي، في نظام الذكاء الاصطناعي. ويمكن إعادة إنتاجه وتحليله، كما يمكن أن يشكل أساسًا للتعبيرات الجديدة (والتي، وفقًا للظروف المحددة، يمكن وصفها بأنها "مصنفات مشتقة" في لغة حق المؤلف). 

يحتفظ LLMs بتعبيرات الأعمال الأصلية التي تم تدريبهم عليها. إنهم يشكلون تمثيلات داخلية للنص في مساحات متجهة مصممة لهذا الغرض، ومع إعطاء المدخلات المناسبة كمحفز، يمكنهم إعادة إنتاج الأعمال الأصلية التي تم استخدامها في تدريبهم. تستمد أنظمة الذكاء الاصطناعي فوائد دائمة من المحتوى، بما في ذلك المحتوى المحمي بحقوق الطبع والنشر، المستخدم لتدريب حاملي شهادات LLM التي تعتمد عليها. تتعرف LLMs على سياق الكلمات بناءً على التعبير عن الكلمات في العمل الأصلي. وهذا السياق يفيد بشكل تراكمي نظام الذكاء الاصطناعي عبر آلاف أو ملايين الأعمال المحمية بحقوق الطبع والنشر المستخدمة في التدريب. يمكن إعادة إنشاء هذه الأعمال الأصلية بواسطة نظام الذكاء الاصطناعي لأنه يتم تخزينها في ناقلات - تمثيلات الفضاء المتجه للرموز المميزة التي تحافظ على تمثيلها الأصلي باللغة الطبيعية - للعمل المحمي بحقوق الطبع والنشر. من منظور حقوق الطبع والنشر، فإن تحديد ما إذا كان سيتم الاحتفاظ بالمواد التدريبية في LLMs هو جوهر الأمر، ومن الواضح أن الإجابة على هذا السؤال هي نعم.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة