Zephyrnet Logosu

AI Güç Tüketimi Patlıyor

Tarih:

Makine öğrenimi, sağlanan tüm enerjiyi tüketme yolunda ilerliyor; bu, maliyetli, verimsiz ve sürdürülemez bir model.

Bunun nedeni, büyük ölçüde, alanın yeni, heyecan verici ve hızla büyüyen olmasıdır. Doğruluk veya yetenek açısından yeni bir çığır açmak için tasarlandı. Bugün bu, hem eğitim hem de çıkarım için veri merkezlerinde işleme kapasitesinde üstel artışlar ve büyük miktarda güç tüketimi gerektiren daha büyük modeller ve daha büyük eğitim setleri anlamına geliyor. Ayrıca akıllı cihazlar her yerde görünmeye başlıyor.

Ancak kolektif güç sayıları insanları korkutmaya başlıyor. Yakın zamanda düzenlenen Tasarım Otomasyon Konferansında, AMD CTO'su Mark Papermaster, ML sistemlerinin enerji tüketimini (şekil 1) dünyanın enerji üretimine kıyasla gösteren bir slayt hazırladı.

Şekil 1: ML'nin enerji tüketimi. Kaynak: AMD

Şekil 1: ML'nin enerji tüketimi. Kaynak: AMD

Papermaster alarmı çalmada yalnız değil. Perceive CEO'su Steve Teig, “Son 100 yılda inovasyonun itici gücünün verimlilik olduğunu unuttuk” dedi. “Moore Yasasını yönlendiren şey buydu. Artık verimsizlik çağındayız.”

Ve Aart deGeus, Yönetim Kurulu Başkanı ve CEO'su Synopsus, bitki Dünya adına bu konuda bir şeyler yapmak için yalvardı. "Anlayacak beyinleri olan, yardım edecek kalbe sahip olmalıdır."

Enerji tüketimi neden bu kadar hızlı artıyor? Teknoloji Direktörü Ian Bratt, "Sinir ağlarının bilgi işlem talebi doyumsuz" diyor. Kol. “Ağ ne kadar büyükse, sonuçlar o kadar iyi ve çözebileceğiniz daha fazla sorun. Enerji kullanımı ağın büyüklüğü ile orantılıdır. Bu nedenle, giderek daha karmaşık sinir ağlarının ve gerçek zamanlı ses ve görüntü uygulamaları gibi gelişmiş kullanım durumlarının benimsenmesini sağlamak için enerji verimli çıkarım kesinlikle gereklidir.”

Ne yazık ki, herkes verimliliği önemsemiyor. Mythic'te ürün ve iş geliştirmeden sorumlu kıdemli başkan yardımcısı Tim Vehling, "Hiper ölçekleme şirketlerinin ne yapmaya çalıştığına baktığınızda, daha iyi ve daha doğru ses tanıma, konuşma tanıma, öneri motorları elde etmeye çalışıyorlar" diyor. “Bu parasal bir şey. Ne kadar yüksek doğruluk elde edebilirlerse, o kadar çok müşteriye hizmet verebilirler ve daha fazla karlılık sağlayabilirler. Bu çok büyük NLP modellerinin veri merkezi eğitimine ve çıkarımına bakıyorsunuz, yani çok fazla güç tüketiliyor. Ve bu uygulamalarda gücü optimize etmek için gerçek bir motivasyon olup olmadığını bilmiyorum.”

Ama bazı insanlar umursuyor. Synopsys bilim adamı Alexander Wakefield, "Bu şirketlerin karbon etkisini azaltmak için doğrudan parasal değil, ancak tüketicinin yalnızca karbon nötr bir çözümü kabul edeceğinden daha fazla ticari baskı var" diyor. "Bu, yeşil enerji tarafından gelen baskıdır ve bu satıcılardan biri karbon nötr olduğunu söylerse, muhtemelen daha fazla insan bunları kullanacaktır."

Ancak tüm enerji bulutta tüketilmiyor. Soruna katkıda bulunan giderek artan sayıda akıllı uç cihaz var. Stratejik ve teknik pazarlama direktörü Marcie Weinstein, "IoT'yi oluşturan milyarlarca cihaz var ve çok da uzak olmayan bir gelecekte, bizim dünyada ürettiğimizden daha fazla güç kullanacaklar" diyor. Aspinity için. "Toplamak ve iletmek için güç tüketiyorlar ve topladıkları tüm bu verilerle ne yapmaları gerekiyorsa yapıyorlar."

Şekil 2: Kenar işlemenin verimsizliği. Kaynak: Aspinity/IHS/SRC

Şekil 2: Kenar işlemenin verimsizliği. Kaynak: Aspinity/IHS/SRC

Şekil 2: Kenar işlemenin verimsizliği. Kaynak: Aspinity/IHS/SRC

Gücü azaltmak
Geçmişte, teknoloji dünyası, işleri daha enerji verimli hale getirmek için yarı iletken ölçeklendirmeye güveniyordu. Arteris IP'de çalışan ve sistem mimarı Michael Frank, “Süreç teknolojimiz fiziğin sınırlarına yaklaşıyor” diyor. "Transistör genişliği, silikon dioksitin 10 ila 20 kafes sabiti arasında bir yerdedir. Kaçak kapasitanslı daha fazla kablomuz var ve bu kabloları şarj ederken ve boşaltırken çok fazla enerji kaybediliyor. Bir işlemin sonucunun deterministik olmaktan ziyade istatistiksel olarak tanımlandığı doğrusal olmayan bir bölgeye girmeden önce voltajlarımızı önemli ölçüde azaltamayız. Teknoloji açısından, bize gerçekten iyi bir şans vermiyorum. Yine de, yaklaşık 20 watt tüketen ve öğrenme dahil tüm bunları yapan bir kavram kanıtı var. Buna beyin denir.”

Peki ML alternatifinden daha mı verimli? ICVS ürün müdürü Joe Hupcey, "ML'nin güç tüketimi, uygulama sisteminin perspektifine yerleştirilmelidir; burada ödünleşim, ML'nin dahil edilmesinden elde edilen genel performans kazancına karşı tüm sistemin güç profiline bağlıdır" diyor. için Siemens EDA. "Ve birçok uygulama alanında endüstri, eğitimde ve çıkarımda güç tüketimini azaltmak için yüksek verimli ML FPGA'lar ve ASIC'ler geliştirdi ve bu eğilimi sürdürmek için devam eden çok sayıda yatırım var."

Güç konusunda daha fazla endişeye neden olabilecek bir etki var. Synopsys bilim adamı Godwin Maben, "Bazı şirketler termal nedeniyle mikron kare başına güce bakıyor" diyor. “Herkes sıcaktan endişe ediyor. Küçük bir alanda çok sayıda kapıyı bir araya getirdiğinizde, güç yoğunluğu yüksektir, sıcaklık yükselir ve termal kaçaklara yaklaşırsınız. Güç yoğunluğu artık performansı sınırlandırıyor. Bir EDA satıcısı olarak sadece güce bakmıyoruz, çünkü termal devreye girdiğinde, watt başına performans ve ardından mikron kare başına watt başına performans önemli hale geliyor.”

Soruna bakmanın birkaç yolu vardır. Siemens EDA'nın HLS platform direktörü Russ Klein, “Genellikle güçten ziyade çıkarım başına enerjiye bakmayı seviyorum” diyor. “Güce bakmak biraz yanıltıcı olabilir. Örneğin, tipik olarak bir CPU, bir GPU'dan daha az güç tüketir. Ancak GPU'lar, bir CPU'dan çok daha hızlı çıkarım yapabilir. Sonuç olarak, eğer çıkarım başına enerjiye bakarsak, GPU'lar, bir CPU'nun ihtiyaç duyacağı enerjinin çok küçük bir kısmını kullanarak bir çıkarım gerçekleştirebilir."

En fazla enerjinin nerede tüketildiği net değil ve bu açık gibi görünse de oldukça çekişmeli olduğu ortaya çıkıyor. Dikkate alınması gereken iki eksen vardır - eğitime karşı çıkarım ve uç ile bulut.

Eğitime karşı çıkarım
Eğitim neden bu kadar çok güç tüketiyor? Arteris' Frank, "Aynı veri kümesi üzerinde birden çok kez yineleme yaptığınızda çok fazla enerji tüketilir" diyor. "Degrade iniş tipi yaklaşımlar yapıyorsunuz. Model temelde hiper boyutlu bir yüzey ve siz çok boyutlu bir vektör uzayından inen diferansiyel bölüm tarafından tanımlanan bir gradyan yapıyorsunuz.”

Bunu yaparak tüketilen enerji miktarı hızla artıyor. Synopsys'ten Maben, “İki yıl önce bir modeli eğitmek için harcanan enerji miktarına bakarsanız, bazı transformatör modelleri için 27 kilovat saat aralığındaydı” diyor. “Bugün trafolara bakarsanız, yarım milyon kilovat saatten fazladır. Parametre sayısı belki 50 milyondan 200 milyona çıktı. Parametre sayısı dört katına çıktı, ancak enerji miktarı 18,000X'in üzerine çıktı. Günün sonunda, karbon ayak izi ve bunun kaç kilo CO,sub>2 oluşturduğuna indirgeniyor.”

Bu, çıkarsama ile nasıl karşılaştırılır? Cadence Tensilica AI ürünleri için ürün pazarlama direktörü Suhas Mitra, "Eğitim ileri ve geri geçişi içerir, oysa çıkarım yalnızca ileri geçiştir" diyor. “Sonuç olarak, çıkarım gücü her zaman daha düşüktür. Ayrıca, eğitim sırasında birçok kez parti boyutları büyük olabilirken, çıkarımda parti boyutu daha küçük olabilir.”

Tartışmalı hale geldiği yer, her iki işlev tarafından tüketilen toplam gücü tahmin etmeye çalıştığınız zamandır. Maben, “Hangisinin daha fazla enerji, eğitim veya çıkarım tükettiği konusunda tartışmalar var” diyor. "Bir modeli eğitmek çok büyük miktarda güç tüketir ve bu verilere dayanarak eğitmek için gereken gün sayısı çok fazladır. Ama çıkarımdan daha fazla enerji mi alıyor? Eğitim tek seferlik bir maliyettir. Antrenmanda çok zaman harcıyorsun. Eğitim aşamasındaki sorun parametre sayısıdır ve bazı modellerde 150 milyar parametre bulunur.”

Ayrıca, eğitim genellikle birden fazla kez yapılır. Mythic'ten Vehling, “Eğitim tek ve bitmiş bir şey değildir ve asla geri dönmez” diyor. “Sürekli olarak yeniden eğitiyorlar, modelleri yeniden optimize ediyorlar, böylece eğitim sabit kalıyor. Modeli sürekli olarak değiştirirler, geliştirmeler bulurlar, bir veri kümesi geliştirilir, bu nedenle aşağı yukarı devam eden bir faaliyettir.”

Ancak, çıkarım birçok kez tekrarlanabilir. Maben, "Kendi kendini süren bir araba için geliştirilmiş olabilecek bir modeli eğitiyorsunuz ve bu model artık her arabada kullanılıyor" diye ekliyor. “Şimdi belki 100 milyon arabada çıkarım yapmaktan bahsediyoruz. Bir tahmin, enerjinin %70 ila %80'inden fazlasının eğitim yerine çıkarım yoluyla tüketileceği yönünde."

Bunu destekleyen bazı veriler var. “Son zamanlarda kâğıt Northeastern ve MIT'den, çıkarımın enerji tüketimi üzerinde eğitimden önemli ölçüde daha büyük bir etkiye sahip olduğu tahmin ediliyor, "diyor Untether AI ürün müdürü Philip Lewer. "Bunun nedeni, modellerin özellikle çıkarsama amacıyla oluşturulmuş olmaları ve bu nedenle çıkarım modunda eğitim modundan çok daha sık çalıştırılmasıdır - özünde bir kez çalış, her yerde koş."

Bulut ve uç
Bir uygulamayı buluttan uca taşımak birçok farklı nedenden dolayı yapılabilir. Expedera'nın pazarlama başkan yardımcısı Paul Karazuba, "Piyasa, bulut yerine uçlara daha iyi itilen belirli faaliyetlerin olduğunu gördü" diyor. “Sınırda neyin yapılacağı ve neyin yapılmayacağı ile bu kararların nasıl alınacağı arasında net bir sınır çizgisi olduğunu düşünmüyorum. Kenarda daha fazla AI için bir istek görüyoruz, kutunun dışında bir damga olarak AI yerine kenarda daha fazla kritik uygulama için bir istek görüyoruz. AI, sadece orada olmak yerine aslında cihazda faydalı bir şey yapıyor.”

Bir bulut modelini alıp uç noktalara taşımak gibi değil. Mythic'ten Vehling, “Diyelim ki bu doğal konuşma, ses tanıma uygulamasına sahipsiniz” diyor. “Bu modelleri bulutta eğitiyorsunuz. Ve çoğu zaman bu modelleri çıkarım için bulutta çalıştırıyorsunuz. Daha uç noktada olan, bulut tabanlı olmayan çıkarım uygulamalarına bakarsanız, modeli bu yerel kaynaklar için eğitirsiniz. Yani çözdüğünüz neredeyse iki farklı problem. Biri bulut tabanlı, diğeri uç tabanlı ve mutlaka bağlantılı olmaları gerekmiyor.”

Modeller, nihayetinde nerede çalışacaklarını bilerek inşa edilmelidir. Vehling, "Genellikle bulutta çalışan milyarlarca parametreli model bulacaksınız, ancak bu sadece bir model kategorisidir," diye ekliyor. "Diğer uçta, çok düşük kaynaklar alan gerçekten küçük uyandırma kelime modelleriniz var - bunlara küçük ml veya bunun altında bile diyebilirsiniz. Ve sonra ortada, kamera tabanlı uygulamalarda kullanıldığını görebileceğiniz görsel analitik modelleri gibi modeller kategorisi bulunur. Buluttaki modellerden çok daha küçükler ama aynı zamanda bu tür çok basit uyandırma sözcüklerinden çok daha büyükler.”

Ve kenarda olan sadece çıkarım değildir. Artan miktarda eğitim görmemiz muhtemeldir. Expedera'nın baş bilim adamı Sharad Chole, "Federe öğrenme bir örnektir" diyor. “Bunun kullanıldığı alanlardan biri otomatik tamamlamadır. Her kişi için otomatik tamamlama farklı olabilir ve bunu gerçekten nasıl öğrenirsiniz? Bunu nasıl uyarlarsın? Bu, kullanıcının gizliliği korunarak yapılmalıdır. Zorluklar var.”

Daha fazla verimliliğe doğru
Bir uygulamayı eğitim sisteminden uca taşımak, önemli bir yazılım yığını içerir. Siemens'ten Hupcey, “İlk eğitim aşamasını geçtikten sonra, takip eden optimizasyonlar çok az performans düşüşüyle ​​önemli ölçüde daha hafif modeller sağlıyor” diyor. Model basitleştirme teknikleri, çıkarım sırasında güç tüketimini azaltmak için kullanılır. Niceleme, ağırlık budama ve yaklaşım, yaygın olarak dağıtılmadan önce model eğitimi sırasında veya sonrasında kullanılır. Bu noktada en görünür durumlardan ikisi TinyML ve GPT-3'ün hafif sürümleridir."

Klein ekliyor: "Bırakma ve budama iyi bir başlangıçtır. Daha küçük sayısal gösterime niceleme yapmak da yardımcı olur. Agresif bir şekilde yapıldığında bunlar ağın boyutunu %99 veya daha fazla azaltabilir ve çoğu durumda doğrulukta %1'den daha az düşüşe neden olabilir. Bazı insanlar, doğruluğu etkilemeden daha küçük ağlar elde etmek için modelde katmanları olan kanalları takas etmeye de bakıyor.”

Bu teknikler hem model boyutunu küçültür hem de enerji gereksinimlerini doğrudan düşürür, ancak daha fazla iyileştirme mümkündür. Expedera's Chole, “Şu anda her katmanın farklı etki alanına nicelleştirilebildiği karma kesinlik desteği görüyoruz” diyor. "Bu daha da ileri götürülebilir. Belki ağırlıkların her boyutu gelecekte farklı bir hassasiyetle nicelenebilir. Bu itme iyi, çünkü eğitim sırasında veri bilimcileri gücü nasıl azaltabileceklerinin ve gücü azaltırken ne gibi doğruluk ödünleşimi yaptıklarının farkına varıyorlar.”

Sonuç
Modeller daha fazla doğruluk elde etmek amacıyla büyüyor, ancak bu eğilim durmak zorunda çünkü tükettiği güç miktarı orantısız bir şekilde artıyor. Bulut, iş modeli nedeniyle bugün bunu karşılayabilirken, uç yapamaz. Ve daha fazla şirket uç uygulamalara yatırım yaptıkça, enerji optimizasyonuna daha fazla önem verilmesini bekleyebiliriz. Bazı şirketler, önümüzdeki 100 yıl içinde 5 kat azalma arıyor, ancak bu, bu eğilimi durdurmaya yetecek kadar yakın değil.

spot_img

En Son İstihbarat

spot_img