شعار زيفيرنت

الدراسة: التعامل مع الاحتياجات المتزايدة للطاقة لـ ML

التاريخ:

بحث بحث حديث أجراه مختبر MIT Lincoln وجامعة Northeastern في المدخرات التي يمكن تحقيقها من خلال وضع حد للطاقة لوحدات معالجة الرسومات المستخدمة في تدريب النموذج والاستدلال والعديد من الطرق المختلفة لتقليل استخدام طاقة الذكاء الاصطناعي في ضوء القلق المتزايد بشأن متطلبات الطاقة لنماذج التعلم الآلي الضخمة .

جدول المحتويات

يمكن لسد الطاقة أن يقلل بشكل كبير من استخدام الطاقة عند تدريب ML

تركز المشكلة الرئيسية للدراسة على الحد الأقصى للطاقة (قطع الطاقة المتاحة لتدريب وحدة معالجة الرسومات على النموذج). إنهم يعتقدون أن الحد من الطاقة يؤدي إلى توفير كبير في الطاقة ، خاصة بالنسبة لنمذجة اللغة المقنعة (MLM) وأطر مثل BERT وأحفادها. نمذجة اللغة هي منطقة سريعة النمو. هل كنت تعلم هذا يمكن أن يشرح نموذج لغة Pathways المزحة?

قد تكون هناك وفورات مماثلة في التكاليف بسبب انخفاض وقت التدريب واستخدام الطاقة للنماذج واسعة النطاق ، والتي جذبت انتباه الناس في السنوات الأخيرة بسبب البيانات الفائقة النطاق والنماذج الجديدة بمليارات أو تريليونات من المعلمات.

بالنسبة لعمليات النشر الأكبر ، وجد الباحثون أن خفض حد الطاقة إلى 150 واط أدى إلى انخفاض متوسط ​​13.7٪ في استخدام الطاقة وزيادة متواضعة بنسبة 6.8٪ في وقت التدريب مقارنةً بالحد الأقصى القياسي 250 واط. إذا كنت تريد البحث في مزيد من التفاصيل ، فاكتشف ذلك كيفية إدارة دورة حياة التعلم الآلي من خلال قراءة مقالتنا.

بحثت دراسة حديثة من مختبر Mit Lincoln وجامعة Northeastern في المدخرات التي يمكن تحقيقها عن طريق الحد من الطاقة Gpus المستخدمة في التدريب النموذجي والاستدلال ، بالإضافة إلى العديد من الطرق المختلفة لتقليل استخدام طاقة الذكاء الاصطناعي في ضوء القلق المتزايد بشأن نماذج التعلم الآلي الضخمة مطالب الطاقة.
يعتقد الباحثون أن الحد من الطاقة يؤدي إلى توفير كبير في الطاقة ، خاصة بالنسبة لنمذجة اللغة المقنعة.

يؤكد الباحثون كذلك أنه على الرغم من العناوين الرئيسية حول تكلفة تدريب النموذج في السنوات الأخيرة ، فإن متطلبات الطاقة لاستخدام تلك النماذج المدربة أكبر بكثير.

"بالنسبة لنمذجة اللغة باستخدام BERT ، تكون مكاسب الطاقة من خلال تقييد الطاقة أكبر بشكل ملحوظ عند إجراء الاستدلال من التدريب. إذا كان هذا متوافقًا مع تطبيقات الذكاء الاصطناعي الأخرى ، فقد يكون لهذا تداعيات كبيرة في استهلاك الطاقة لمنصات الحوسبة السحابية أو واسعة النطاق التي تخدم تطبيقات الاستدلال للبحث والصناعة. "

أخيرًا ، تدعي الدراسة أن التدريب المكثف على التعلم الآلي يجب أن يقتصر على الأشهر الباردة من العام وفي الليل لتوفير المال على التبريد.

بحثت دراسة حديثة من مختبر Mit Lincoln وجامعة Northeastern في المدخرات التي يمكن تحقيقها عن طريق الحد من الطاقة Gpus المستخدمة في التدريب النموذجي والاستدلال ، بالإضافة إلى العديد من الطرق المختلفة لتقليل استخدام طاقة الذكاء الاصطناعي في ضوء القلق المتزايد بشأن نماذج التعلم الآلي الضخمة مطالب الطاقة.
بالنسبة لنمذجة اللغة باستخدام BERT ، تكون مكاسب الطاقة من خلال تقييد الطاقة أكبر بشكل ملحوظ عند إجراء الاستدلال من التدريب.

"من الواضح أن أعباء العمل الثقيلة في البرمجة اللغوية العصبية عادة ما تكون أقل كفاءة في الصيف من تلك التي يتم تنفيذها خلال فصل الشتاء. نظرًا للاختلاف الموسمي الكبير ، إذا كان هناك ، تجارب باهظة الثمن من الناحية الحسابية يمكن توقيتها لأشهر أكثر برودة ، فإن هذا التوقيت يمكن أن يقلل بشكل كبير من البصمة الكربونية ، "صرح المؤلفون.

تدرك الدراسة أيضًا إمكانية توفير الطاقة في تحسين بنية النموذج والعمليات. ومع ذلك ، فإنه يترك مزيدًا من التطوير للجهود الأخرى.

أخيرًا ، يدافع المؤلفون عن أوراق علمية جديدة من صناعة التعلم الآلي لتنتهي ببيان يوضح تفاصيل استخدام الطاقة للدراسة وعواقب الطاقة المحتملة لاعتماد التقنيات الموثقة فيها.

الدراسة بعنوان "قوة عظمى ، مسؤولية كبيرة: توصيات لتقليل الطاقة لتدريب النماذج اللغوية"أجراه ستة باحثين جوزيف ماكدونالد وباولين لي وناثان فراي وديفيش تيواري وفيجاي جاديبالي وسيدهارث سامسي من معهد ماساتشوستس للتكنولوجيا لينكولن وجامعة نورث إيسترن.

كيف تصنع ML بكفاءة في استخدام الطاقة؟

لتحقيق نفس المستوى من الدقة ، تتطلب خوارزميات التعلم الآلي كميات كبيرة بشكل متزايد من البيانات وقوة الحوسبة ، ومع ذلك فإن ثقافة ML الحالية تساوي استخدام الطاقة مع الأداء المحسن.

ووفقا ل 2022 تعاون معهد ماساتشوستس للتكنولوجيا، فإن تحقيق تحسن بمقدار عشرة أضعاف في أداء النموذج يتطلب زيادة قدرها 10,000 ضعف في المتطلبات الحسابية ونفس كمية الطاقة.

ونتيجة لذلك ، ازداد الاهتمام بتدريب تعلم الآلة أكثر كفاءة في استخدام الطاقة في السنوات الأخيرة. وفقًا للباحثين ، فإن الورقة الجديدة هي الأولى التي تركز على تأثير قيود الطاقة على تدريب التعلم الآلي والاستدلال ، مع التركيز بشكل خاص على مناهج البرمجة اللغوية العصبية.

"[هذه] الطريقة لا تؤثر على تنبؤات النماذج المدربة أو بالتالي دقة أدائها في المهام. وهذا يعني أنه إذا تم تدريب شبكتين لهما نفس البنية والقيم الأولية والبيانات المجمعة على نفس العدد من الدُفعات تحت أغطية طاقة مختلفة ، فستكون المعلمات الناتجة متطابقة ، وقد تختلف الطاقة المطلوبة لإنتاجها فقط "، أوضح المؤلفون.

بحثت دراسة حديثة من مختبر Mit Lincoln وجامعة Northeastern في المدخرات التي يمكن تحقيقها عن طريق الحد من الطاقة Gpus المستخدمة في التدريب النموذجي والاستدلال ، بالإضافة إلى العديد من الطرق المختلفة لتقليل استخدام طاقة الذكاء الاصطناعي في ضوء القلق المتزايد بشأن نماذج التعلم الآلي الضخمة مطالب الطاقة.
تشير التجارب إلى أن تطبيق حد أقصى للطاقة يمكن أن يقلل بشكل كبير من استخدام الطاقة.

لتقييم تأثير الحد الأقصى للسلطة على التدريب والاستدلال ، استخدم الباحثون نفيديا سمي (واجهة إدارة النظام) و a مكتبة HuggingFace الامتيازات.

تم تدريب الباحثين بيرت, ديستيلبيرتو الطيور الكبيرة باستخدام الامتيازات والرهون البحرية وتتبع استخدامهم للطاقة خلال التدريب والنشر.

للتجربة ، DeepAI's ويكي النص-103 تم استخدام مجموعة البيانات لأربع فترات من التدريب على دفعات من ثمانية على 16 وحدة معالجة رسومات V100 ، مع أربع سدادات طاقة مختلفة: 100 واط ، 150 واط ، 200 واط ، و 250 واط (الافتراضي أو الأساسي لوحدة معالجة الرسومات NVIDIA V100). للحماية من التحيز أثناء التدريب ، تم استخدام المعلمات المدربة على الخدش وقيم التهيئة العشوائية.

كما هو موضح في الرسم البياني الأول ، مع التغييرات الإيجابية في وقت التدريب وغير الخطي ، يمكن تحقيق قدر كبير من توفير الطاقة.

قال المؤلفون: "تشير تجاربنا إلى أن استخدام أغطية الطاقة يمكن أن يقلل بشكل كبير من استخدام الطاقة على حساب وقت التدريب".

استخدم المؤلفون بعد ذلك نفس الطريقة لمعالجة مشكلة أكثر صعوبة: تدريب BERT على التكوينات المتفرقة للعديد من وحدات معالجة الرسومات ، وهي حالة نموذجية أكثر لنماذج FAANG NLP جيدة التمويل والدعاية.

تقول الورقة:

"عند حساب المتوسط ​​عبر كل اختيار تكوين ، أدى استخدام الطاقة بمقدار 150 وات إلى انخفاض متوسط ​​بنسبة 13.7٪ في استخدام الطاقة وزيادة بنسبة 6.8٪ في وقت التدريب مقارنةً بالحد الأقصى الافتراضي. [] إعداد 100W له أوقات تدريب أطول (31.4٪ أطول في المتوسط). أوضح المؤلفون أن حد 200 واط يتوافق مع نفس وقت التدريب تقريبًا مثل حد 250 واط ولكن توفير طاقة أكثر تواضعًا من حد 150 واط "، أوضح المؤلفان.

قرر الباحثون أن هذه النتائج تدعم فكرة تغطية الطاقة لهياكل GPU والتطبيقات التي تعمل عليها عند 150 واط. وأشاروا أيضًا إلى أن توفير الطاقة ينطبق على العديد من منصات الأجهزة ، لذلك كرروا الاختبارات لمعرفة مدى نجاح وحدات معالجة الرسومات NVIDIA K80 و T4 و A100.

يتطلب الاستدلال الكثير من القوة

على الرغم من العناوين الرئيسية ، فهو استنتاج (أي استخدام نموذج مكتمل ، مثل نموذج البرمجة اللغوية العصبية) بدلاً من التدريب الذي يتمتع بأكبر قدر من القوة وفقًا لبحث سابق ، مما يعني أنه نظرًا لأن النماذج الشائعة يتم تسويقها وإدخالها في الاتجاه السائد ، فإن استخدام الطاقة قد تصبح أكثر إشكالية مما هي عليه في هذه المرحلة المبكرة من تطوير البرمجة اللغوية العصبية.

حدد الباحثون تأثير الاستدلال على استخدام الطاقة ، ووجدوا أن تقييد استخدام الطاقة له تأثير كبير على زمن انتقال الاستدلال:

"مقارنة بـ 250 واط ، يتطلب إعداد 100 واط مضاعفة وقت الاستدلال (زيادة بنسبة 114٪) واستهلاك طاقة أقل بنسبة 11.0٪ ، وتطلب 150 واط وقتًا إضافيًا بنسبة 22.7٪ وتوفير 24.2٪ من الطاقة ، وتطلب 200 واط وقتًا إضافيًا بنسبة 8.2٪ مع تقليل بنسبة 12.0٪ الطاقة ، "أوضح المؤلفان.

بحثت دراسة حديثة من مختبر Mit Lincoln وجامعة Northeastern في المدخرات التي يمكن تحقيقها عن طريق الحد من الطاقة Gpus المستخدمة في التدريب النموذجي والاستدلال ، بالإضافة إلى العديد من الطرق المختلفة لتقليل استخدام طاقة الذكاء الاصطناعي في ضوء القلق المتزايد بشأن نماذج التعلم الآلي الضخمة مطالب الطاقة.
يقترح مؤلفو الورقة أن التدريب يمكن أن يتم في ذروة فعالية استخدام الطاقة (PUE).

أهمية PUE

يقترح مؤلفو الورقة البحثية أن التدريب يمكن أن يتم في ذروة فعالية استخدام الطاقة (PUE) ، تقريبًا في الشتاء والليل عندما يكون مركز البيانات أكثر كفاءة.

"يمكن تحقيق وفورات كبيرة في الطاقة إذا أمكن جدولة أعباء العمل في الأوقات التي يُتوقع فيها انخفاض استهلاك الطاقة في الطاقة. على سبيل المثال ، قد يؤدي نقل وظيفة قصيرة المدى من النهار إلى الليل إلى انخفاض بنسبة 10٪ تقريبًا ، وقد يؤدي نقل وظيفة أطول ومكلفة (على سبيل المثال ، نموذج لغوي يستغرق أسابيع حتى يكتمل) من الصيف إلى الشتاء إلى انخفاض بنسبة 33٪. في حين أنه من الصعب التنبؤ بالتوفير الذي قد يحققه الباحث الفردي ، فإن المعلومات المقدمة هنا تسلط الضوء على أهمية العوامل البيئية التي تؤثر على الطاقة الإجمالية التي يستهلكها أعباء العمل "، كما ذكر المؤلفون.

أخيرًا ، تشير الورقة إلى أنه نظرًا لأنه من غير المحتمل أن تكون موارد المعالجة المحلية قد نفذت نفس تدابير الكفاءة مثل مراكز البيانات الضخمة واللاعبين رفيعي المستوى في الحوسبة السحابية ، فإن نقل أعباء العمل إلى مناطق ذات استثمارات عميقة في الطاقة قد يوفر فوائد بيئية.

"في حين أن هناك راحة في الحصول على موارد الحوسبة الخاصة التي يمكن الوصول إليها ، فإن هذه الراحة تأتي بتكلفة. بشكل عام ، يمكن الحصول على وفورات الطاقة وتأثيرها بسهولة أكبر على نطاقات أكبر. وأضاف المؤلفون: "تقوم مراكز البيانات ومقدمو خدمات الحوسبة السحابية باستثمارات كبيرة في كفاءة مرافقهم".

هذه ليست المحاولة الوحيدة لإنشاء نماذج تعلم آلي وذكاء اصطناعي موفرة للطاقة. أحدث الأبحاث تظهر ذلك ستمهد المغناطيسات النانوية الطريق لذكاء اصطناعي منخفض الطاقة.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة

الدردشة معنا

أهلاً! كيف يمكنني مساعدك؟