Zephyrnet Logosu

Çalışma: Makine öğreniminin artan güç ihtiyaçlarıyla başa çıkmak

Tarih:

MIT Lincoln Laboratuvarı ve Northeastern Üniversitesi'nden yakın zamanda yapılan bir araştırma, büyük makine öğrenimi modellerinin enerji taleplerine ilişkin artan endişeler ışığında, model eğitimi ve çıkarımda kullanılan GPU'ların güç sınırlaması ile yapılabilecek tasarrufları ve yapay zeka enerji kullanımını azaltmak için birkaç farklı yöntemi araştırdı. .

İçindekiler

Güç sınırı, makine öğrenimi eğitimi sırasında enerji kullanımını önemli ölçüde azaltabilir

Çalışmanın ana sorunu güç sınırına (modeli eğiten GPU'ya giden mevcut gücün kesilmesi) odaklanıyor. Güç sınırlamasının, özellikle Maskeli Dil Modellemesi (MLM) ve BERT ve onun soyundan gelen çerçeveler için önemli enerji tasarrufu sağladığını düşünüyorlar. Dil modelleme hızla büyüyen bir alandır. Bunu biliyor muydun Pathways Dil Modeli bir şakayı açıklayabilir?

Son yıllarda hiper ölçekli veriler ve milyarlarca veya trilyonlarca parametreye sahip yeni modeller sayesinde insanların dikkatini çeken daha büyük ölçekli modellerde eğitim süresinin ve enerji kullanımının azalması nedeniyle benzer maliyet tasarrufları elde edilebilir.

Daha büyük dağıtımlar için araştırmacılar, güç sınırını 150 W'a düşürmenin, standart maksimum 13.7 W'a kıyasla enerji kullanımında ortalama %6.8'lik bir azalma ve eğitim süresinde de %250'lik mütevazı bir artış sağladığını buldu. Daha fazla ayrıntıya inmek istiyorsanız, öğrenin makine öğrenimi yaşam döngüsünün nasıl yönetileceği makalemizi okuyarak.

Mit Lincoln Laboratuvarı ve Northeastern Üniversitesi'nden Yakın Zamanda Yapılan Bir Araştırma, Model Eğitimi ve Çıkarımda Kullanılan GPU'nun Gücünün Sınırlandırılmasıyla Sağlanabilen Tasarrufların yanı sıra, Devasa Makine Öğrenimi Modellerine İlişkin Artan Endişeler Işığında Yapay Zeka Enerjisi Kullanımını Azaltmaya Yönelik Birkaç Farklı Yöntemi Araştırdı ' Enerji Talepleri.
Araştırmacılar, güç sınırlamasının özellikle Maskeli Dil Modellemesi için önemli miktarda enerji tasarrufu sağladığını düşünüyor.

Araştırmacılar ayrıca, son yıllarda model eğitiminin maliyetine ilişkin manşetlere rağmen, bu eğitilmiş modellerden yararlanmanın enerji gereksinimlerinin önemli ölçüde daha fazla olduğunu ileri sürüyorlar.

"BERT ile dil modelleme için, güç sınırlaması yoluyla elde edilen enerji kazanımları, çıkarım yapılırken eğitime göre belirgin şekilde daha fazladır. Eğer bu durum diğer yapay zeka uygulamaları için de tutarlıysa, araştırma ve endüstriye yönelik çıkarım uygulamaları sunan büyük ölçekli veya bulut bilişim platformlarının enerji tüketiminde önemli sonuçlar doğurabilir.”

Son olarak çalışma, soğutma masrafından tasarruf etmek için kapsamlı makine öğrenimi eğitiminin yılın daha soğuk aylarıyla ve geceleri sınırlandırılması gerektiğini iddia ediyor.

Mit Lincoln Laboratuvarı ve Northeastern Üniversitesi'nden Yakın Zamanda Yapılan Bir Araştırma, Model Eğitimi ve Çıkarımda Kullanılan GPU'nun Gücünün Sınırlandırılmasıyla Sağlanabilen Tasarrufların yanı sıra, Devasa Makine Öğrenimi Modellerine İlişkin Artan Endişeler Işığında Yapay Zeka Enerjisi Kullanımını Azaltmaya Yönelik Birkaç Farklı Yöntemi Araştırdı ' Enerji Talepleri.
BERT ile dil modellemesi için, güç sınırı yoluyla elde edilen enerji kazanımları, çıkarım yapılırken eğitime göre belirgin şekilde daha fazladır.

“Açıkçası, ağır NLP iş yükleri genellikle yaz aylarında kış aylarında yürütülenlere göre çok daha az verimli oluyor. Yazarlar, büyük mevsimsel değişimler göz önüne alındığında, eğer varsa, daha serin aylara zamanlanabilen, hesaplama açısından pahalı deneyler olduğu için bu zamanlamanın karbon ayak izini önemli ölçüde azaltabileceğini belirtti.

Çalışma aynı zamanda model mimarisini ve süreçlerini optimize etmede enerji tasarrufu potansiyelinin de farkına varıyor. Ancak daha fazla gelişmeyi başka çabalara bırakıyor.

Son olarak yazarlar, makine öğrenimi endüstrisindeki yeni bilimsel makalelerin, çalışmanın enerji kullanımını ve burada belgelenen teknolojilerin benimsenmesinin potansiyel enerji sonuçlarını ayrıntılarıyla anlatan bir açıklamayla sona ermesini savunuyorlar.

“ başlıklı çalışmaBüyük Güç, Büyük Sorumluluk: Eğitim Dil Modelleri için Enerjiyi Azaltmaya Yönelik ÖnerilerMIT Lincoln ve Northeastern Üniversitesi'nden altı araştırmacı Joseph McDonald, Baolin Li, Nathan Frey, Devesh Tiwari, Vijay Gadepally, Siddharth Samsi tarafından yürütüldü.

Güç açısından verimli ML nasıl oluşturulur?

Aynı doğruluk düzeyine ulaşmak için, makine öğrenimi algoritmaları giderek daha fazla miktarda veri ve bilgi işlem gücü gerektirir; ancak mevcut makine öğrenimi kültürü, enerji kullanımını gelişmiş performansla eşitlemektedir.

Bir göre 2022 MIT işbirliğiModel performansında on kat iyileşme elde etmek için hesaplama gereksinimlerinde 10,000 kat artış ve aynı miktarda enerji gerekir.

Sonuç olarak, güç açısından daha verimli, etkili makine öğrenimi eğitimine olan ilgi son yıllarda arttı. Araştırmacılara göre yeni makale, NLP yaklaşımlarına özellikle vurgu yapılarak, güç kısıtlamalarının makine öğrenimi eğitimi ve çıkarımı üzerindeki etkisine odaklanan ilk makaledir.

"[Bu] yöntem, eğitilmiş modellerin tahminlerini veya dolayısıyla görevlerdeki performans doğruluğunu etkilemez. Yani, aynı yapıya, başlangıç ​​değerlerine ve toplu verilere sahip iki ağ, farklı güç sınırları altında aynı sayıda grup için eğitilirse, ortaya çıkan parametreler aynı olacaktır ve yalnızca bunları üretmek için gereken enerji farklı olabilir." Yazarlar.

Mit Lincoln Laboratuvarı ve Northeastern Üniversitesi'nden Yakın Zamanda Yapılan Bir Araştırma, Model Eğitimi ve Çıkarımda Kullanılan GPU'nun Gücünün Sınırlandırılmasıyla Sağlanabilen Tasarrufların yanı sıra, Devasa Makine Öğrenimi Modellerine İlişkin Artan Endişeler Işığında Yapay Zeka Enerjisi Kullanımını Azaltmaya Yönelik Birkaç Farklı Yöntemi Araştırdı ' Enerji Talepleri.
Deneyler, güç sınırlamasının uygulanmasının enerji kullanımını önemli ölçüde azaltabileceğini göstermektedir.

Güç sınırının eğitim ve çıkarım üzerindeki etkisini değerlendirmek için araştırmacılar, Nvidia-smi (Sistem Yönetim Arayüzü) ve HuggingFace MLM kütüphanesi.

Araştırmacılar eğitildi Bert, DistilBERT, ve Büyük Kuş MLM'yi kullanıyor ve eğitim ve dağıtım boyunca enerji kullanımlarını takip ediyor.

Deney için DeepAI'nin Vikimetin-103 veri kümesi, 16 V100 GPU üzerinde sekizli gruplar halinde dört farklı güç sınırıyla dört dönemlik eğitim için kullanıldı: 100W, 150W, 200W ve 250W (NVIDIA V100 GPU için varsayılan veya temel). Eğitim sırasında yanlılığa karşı koruma sağlamak için çizilmeye eğitilmiş parametreler ve rastgele başlangıç ​​değerleri kullanıldı.

İlk grafikte görüldüğü gibi eğitim süresinde olumlu ve doğrusal olmayan değişikliklerle büyük miktarda enerji tasarrufu sağlanabilir.

Yazarlar, "Deneylerimiz, güç kapaklarının uygulanmasının, eğitim süresi pahasına enerji kullanımını önemli ölçüde azaltabileceğini gösteriyor" dedi.

Yazarlar daha sonra aynı yöntemi daha zorlu bir sorunu çözmek için kullandılar: BERT'i çok sayıda GPU'nun dağınık konfigürasyonları konusunda eğitmek; bu, iyi finanse edilen ve iyi duyurulan FAANG NLP modelleri için daha tipik bir durumdur.

Kağıt şöyle diyor:

"Her bir yapılandırma seçeneğinde ortalama olarak, 150 W'lık sınırlı güç kullanımı, varsayılan maksimuma kıyasla enerji kullanımında ortalama %13.7'lik bir düşüşe ve eğitim süresinde %6.8'lik bir artışa yol açtı. [] 100W ayarı önemli ölçüde daha uzun eğitim sürelerine sahiptir (ortalama %31.4 daha uzun). Yazarlar, 200W sınırının 250W sınırıyla neredeyse aynı eğitim süresine karşılık geldiğini ancak 150W sınırından daha mütevazı enerji tasarrufuna karşılık geldiğini açıkladılar" diye açıkladı yazarlar.

Araştırmacılar, bu bulguların, gücü sınırlayan GPU mimarileri ve bunlar üzerinde 150W'da çalışan uygulamalar kavramını desteklediğini belirledi. Ayrıca enerji tasarruflarının çeşitli donanım platformları için geçerli olduğunu belirttiler ve NVIDIA K80, T4 ve A100 GPU'larda işlerin nasıl gittiğini görmek için testleri tekrarladılar.

Çıkarım çok fazla güç gerektirir

Manşetlere rağmen, önceki araştırmalara göre en büyük güce sahip olan şey eğitimden ziyade çıkarımdır (yani NLP modeli gibi tamamlanmış bir modeli kullanmak), bu da popüler modeller ticarileştirilip ana akıma girdikçe güç kullanımının artabileceğini ima etmektedir. NLP gelişiminin bu erken aşamasında olduğundan daha sorunlu hale gelir.

Araştırmacılar, çıkarımın güç kullanımı üzerindeki etkisini ölçtüler ve güç kullanımını kısıtlamanın çıkarım gecikmesi üzerinde önemli bir etkiye sahip olduğunu buldular:

"250W ile karşılaştırıldığında, 100W'lık bir ayar, çıkarım süresinin iki katı (%114 artış) gerektirdi ve %11.0 daha az enerji tüketti; 150W, %22.7 daha fazla zaman gerektirdi ve %24.2 enerji tasarrufu sağladı; 200W ise %8.2 daha az ile %12.0 daha fazla zaman gerektirdi." enerji,” diye açıkladı yazarlar.

Mit Lincoln Laboratuvarı ve Northeastern Üniversitesi'nden Yakın Zamanda Yapılan Bir Araştırma, Model Eğitimi ve Çıkarımda Kullanılan GPU'nun Gücünün Sınırlandırılmasıyla Sağlanabilen Tasarrufların yanı sıra, Devasa Makine Öğrenimi Modellerine İlişkin Artan Endişeler Işığında Yapay Zeka Enerjisi Kullanımını Azaltmaya Yönelik Birkaç Farklı Yöntemi Araştırdı ' Enerji Talepleri.
Makalenin yazarları, eğitimin Güç Kullanımı Verimliliğinin (PUE) en üst düzeyde yapılabileceğini öne sürüyor.

PUE'nin önemi

Makalenin yazarları, eğitimin Güç Kullanım Etkinliğinin (PUE) en yüksek seviyede, yani veri merkezinin en verimli olduğu kış ve gece saatlerinde yapılabileceğini öne sürüyor.

“İş yükleri daha düşük bir PUE'nin beklendiği zamanlarda planlanabilirse önemli miktarda enerji tasarrufu elde edilebilir. Örneğin, kısa süreli bir işi gündüzden geceye taşımak yaklaşık %10'luk bir azalma sağlayabilir ve daha uzun, pahalı bir işi (örneğin, tamamlanması haftalar süren bir dil modeli) yazdan kışa taşımak %33'lük bir azalma sağlayabilir. Bireysel bir araştırmacının elde edebileceği tasarrufları tahmin etmek zor olsa da, burada sunulan bilgiler, iş yükleri tarafından tüketilen genel enerjiyi etkileyen çevresel faktörlerin önemini vurgulamaktadır," diye belirtti yazarlar.

Son olarak makale, yerel işleme kaynaklarının büyük veri merkezleri ve üst düzey bulut bilişim oyuncuları ile aynı verimlilik önlemlerini uygulama ihtimalinin düşük olması nedeniyle, iş yüklerinin derin enerji yatırımlarına sahip bölgelere aktarılmasının çevresel faydalar sağlayabileceğini öne sürüyor.

“Erişilebilir özel bilgi işlem kaynaklarına sahip olmanın rahatlığı olsa da, bu kolaylığın bir bedeli var. Genel olarak konuşursak, daha büyük ölçeklerde enerji tasarrufu ve etki daha kolay elde edilir. Veri merkezleri ve bulut bilişim sağlayıcıları tesislerinin verimliliğine önemli yatırımlar yapıyor" diye ekledi yazarlar.

Güç açısından verimli makine öğrenimi ve yapay zeka modelleri oluşturmaya yönelik tek girişim bu değil. Son araştırmalar şunu gösteriyor Nanomıknatıslar düşük enerjili yapay zekanın önünü açacak.

spot_img

En Son İstihbarat

spot_img