Zephyrnet Logosu

ControlNet ve StarCoder: Üretken Yapay Zeka için Roblox araştırma ilerlemeleri – Roblox Blogu

Tarih:

Yapay zeka (AI) da dahil olmak üzere tüm alanlarda sorumlu ve toplumun katılımını sağlayan araştırmaları sürdürmeye derinden kararlıyız. Bunu şeffaflık, dış doğrulama ve akademik kurumları işbirliği ve sponsorluk yoluyla destekleme yoluyla başarıyoruz. Bu yaklaşım, üç odak alanımızda en büyük ilerlemeleri yakalamamızı hızlandırıyor: üretken yapay zeka, veri merkezi ölçeklendirme ve çevrimiçi güvenlik. Bugün, üretken yapay zeka araştırma projelerimizden ikisinin içgörülerini ve sonuçlarını paylaşıyoruz. Kontrol Ağı daha kesin görüntü çıktıları için görüntü oluşturma modellerine koşullu kontrol ekleyen açık kaynaklı bir sinir ağıdır. Yıldız Kodlayıcı kod oluşturmaya yönelik son teknoloji ürünü açık kaynaklı bir büyük dil modelidir (LLM). 

Her iki proje de akademik ve endüstri işbirliklerinden oluşuyor. Her ikisi de yaratıcılarımız için çok daha güçlü araçlara odaklanıyor: 3D sanatçılar ve programcılar. En önemlisi ve dönüştürücü araştırmalar aracılığıyla uzun vadeli yatırım yapma misyonumuzla uyumlu olan bu projeler, birçok uygulama için yapay zekanın temel bilimsel anlayışı ve kontrolünde ilerlemelerin göstergelerini sergiliyor. Bu çalışmanın Roblox'un ve bir bütün olarak alanın geleceği üzerinde önemli bir etkisi olabileceğine inanıyoruz ve bunu açıkça paylaşmaktan gurur duyuyoruz.

Kontrol Ağı

Son zamanlardaki yapay zeka buluşları (özellikle derin sinir ağlarını kullanan veri odaklı makine öğrenimi (ML) yöntemleri) oluşturma araçlarında yeni ilerlemelere yol açtı. Bu ilerlemeler şunları içerir: Kod Yardımı ve Malzeme Üreticisi Ücretsiz aracımız Roblox Studio'da herkese açık olan özellikler. Modern üretken yapay zeka sistemleri, milyarlarca eğitim işlemiyle iyileştirilen, model adı verilen veri yapılarını içerir. Günümüzün en güçlü modelleri çok modludur, yani metin, resim ve ses gibi medyaların bir karışımı üzerinde eğitilirler. Bu, renk paletleri veya yazım gibi bir veri kümesinin belirli öğelerine aşırı uyum sağlamak yerine, medya genelinde ortak temel anlamları bulmalarına olanak tanır. 

Bu yeni yapay zeka sistemleri önemli bir ifade gücüne sahip, ancak bu güç büyük ölçüde "hızlı mühendislik" yoluyla yönlendiriliyor. Bunu yapmak, bir arama motoru sorgusunun beklediğiniz sonucu vermemesi durumunda hassaslaştırılmasına benzer şekilde, yalnızca giriş metnini değiştirmek anlamına gelir. Bu, yönlendirilmemiş bir sohbet robotu gibi yeni bir teknolojiyle oynamanın ilgi çekici bir yolu olsa da, içerik oluşturmanın verimli veya etkili bir yolu değildir. İçerik oluşturucuların tahmin yerine aktif kontrol yoluyla etkili bir şekilde yararlanabilecekleri elektrikli araçlara ihtiyaçları var.

ControlNet projesi bu zorluklardan bazılarının çözümüne yönelik bir adımdır. Aşağıdakiler gibi önceden eğitilmiş büyük yapay zeka modellerinin gücünden yararlanmanın etkili bir yolunu sunar: Kararlı Difüzyon, hızlı mühendisliğe güvenmeden. ControlNet, sanatçının yalnızca metin istemlerinin ötesinde ek giriş koşulları sağlamasına olanak tanıyarak kontrolü artırır. Roblox araştırmacısı ve Stanford Üniversitesi profesörü Maneesh Agrawala ve Stanford araştırmacısı Lvmin Zhang, ortak ControlNet projemizin hedeflerini şu şekilde çerçeveliyor:

  1. Üretken yapay zeka araçları için daha iyi bir kullanıcı arayüzü geliştirin. Anlaşılmaz anlık manipülasyonların ötesine geçin ve bir fikri veya yaratıcı konsepti iletmenin daha doğal yollarını geliştirin.
  2. Yaratıcının aklındaki görüntünün tam olarak gerçekleştirilmesini sağlamak için "gibi bir görüntü" veya "tarzında bir görüntü" yapmanın ötesine geçmek için daha hassas mekansal kontrol sağlayın.
  3. Üretken yapay zeka eğitimini, daha hızlı yürütülen, daha az bellek gerektiren ve daha az elektrik enerjisi tüketen, bilgi işlem açısından daha verimli bir sürece dönüştürün.
  4. Görüntü üreten yapay zekayı yeniden kullanılabilir bir yapı taşına genişletin. Daha sonra standartlaştırılmış görüntü işleme ve 3D işleme hatlarıyla entegre edilebilir. 

ControlNet, içerik oluşturucuların mekansal kontrol için ek bir görüntü sağlamasına olanak tanıyarak, oluşturulan son görüntü üzerinde daha fazla kontrol sağlar. Örneğin, mevcut bir metin-görüntü oluşturucudaki "boynuzlu erkek geyik" istemi, aşağıda gösterildiği gibi çok çeşitli görüntüler üretti:

Önceki yapay zeka çözümleriyle oluşturulan bu görüntüler ilgi çekicidir ancak ne yazık ki temelde keyfi sonuçlar verir; herhangi bir kontrol yoktur. Önceki görüntü oluşturma sistemlerinde, metin istemini gözden geçirmek dışında çıktıyı yönlendirmenin hiçbir yolu yoktur.

ControlNet ile yaratıcının artık çok daha fazla gücü var. ControlNet'i kullanmanın bir yolu, izlenecek genel şekli belirlemek için hem bilgi istemi hem de kaynak görüntü sağlamaktır. Bu durumda, ortaya çıkan görüntüler yine de çeşitlilik sunacaktır ancak en önemlisi belirtilen şekli korur:

Yaratıcı ayrıca bir dizi kenar, hiçbir ipucu içermeyen bir görüntü veya sisteme etkileyici girdi sağlamanın birçok başka yolunu da belirtmiş olabilir.

Bir ControlNet oluşturmak için, büyük bir yayılma modelinin ağındaki ağırlıkları iki versiyona kopyalıyoruz. Biri eğitilebilir ağ (bu kontrolü sağlar; “ControlNet”tir) ve diğeri ise kilitli ağ. Kilitli ağ, milyarlarca görüntüden öğrenilen yeteneği korur ve daha önceki herhangi bir görüntü oluşturucu olabilir. Daha sonra ek görüntüden koşullu kontrolü öğrenmek için eğitilebilir ağı göreve özel veri setleri üzerinde eğitiriz. Eğitilebilir ve kilitli kopyalar, adını verdiğimiz benzersiz bir evrişim katmanı türüyle bağlanır. sıfır evrişimburada evrişim ağırlıkları öğrenilmiş bir şekilde sıfırlardan optimize edilmiş parametrelere doğru kademeli olarak büyür; bu, bunların başlangıçta hiçbir etkisinin olmadığı ve sistemin kilitli ağ üzerinde uygulamak için en uygun kontrol seviyesini elde ettiği anlamına gelir.

Orijinal ağırlıklar kilitli ağ aracılığıyla korunduğu için model, çeşitli boyutlardaki eğitim veri kümeleriyle iyi çalışır. Sıfır evrişim katmanı, süreci çok daha hızlı hale getirir; yeni katmanları sıfırdan eğitmektense, bir difüzyon modelinde ince ayar yapmaya daha yakındır. 

Görüntü oluşturmaya yönelik bu tekniğin kapsamlı doğrulamasını gerçekleştirdik. ControlNet yalnızca çıktı görüntüsünün kalitesini iyileştirmez. Ayrıca, belirli bir görev için ağ eğitimini daha verimli hale getirir ve dolayısıyla milyonlarca yaratıcımız için geniş ölçekte dağıtmayı pratik hale getirir. ControlNet, deneylerde modelin tamamen yeniden eğitilmesini gerektiren alternatif senaryolara kıyasla 10 kata kadar verimlilik artışı sağlar. Yeni modeller oluşturma süreci geleneksel yazılım geliştirmeye göre zaman alıcı ve kaynak yoğun olduğundan bu verimlilik kritik öneme sahiptir. Eğitimi daha verimli hale getirmek elektrik tasarrufu sağlar, maliyetleri azaltır ve yeni işlevlerin eklenebilme oranını artırır.

ControlNet'in benzersiz yapısı, çeşitli boyutlardaki eğitim veri setleriyle ve birçok farklı ortam türüyle iyi çalıştığı anlamına gelir. ControlNet'in fotoğraflar, elle çizilmiş karalamalar ve diğer birçok farklı kontrol yöntemiyle çalıştığı gösterilmiştir. açık amaç poz tespiti. ControlNet'in üretken yapay zeka içeriği için birçok farklı medya türüne uygulanabileceğine inanıyoruz. Bu araştırma açık ve kamuya açıktır Topluluğun deneme yapması ve geliştirme yapması için. Biz de daha fazla keşif yaptıkça daha fazla bilgi sunmaya devam edeceğiz.

Yıldız Kodlayıcı

Üretken yapay zeka; görüntüler, ses, metin, program kaynak kodu veya başka herhangi bir zengin medya biçimi üretmek için uygulanabilir. Ancak farklı ortamlarda en büyük başarıya sahip uygulamalar, çıktının subjektif olarak değerlendirildiği uygulamalar olma eğilimindedir. Örneğin bir görsel, izleyicinin ilgisini çektiğinde başarılı olur. Görüntünün tamamı ilgi çekiciyse, kenarlardaki garip özellikler veya eldeki fazladan parmak gibi görüntüdeki bazı hatalar fark edilmeyebilir. Benzer şekilde, bir şiir ya da kısa öyküde dilbilgisi hataları ya da bazı mantıksal sıçramalar olabilir, ancak eğer ana fikir ilgi çekiciyse bunları affetme eğilimindeyiz. 

Sübjektif kriterleri dikkate almanın bir başka yolu da sonuç uzayının sürekli olmasıdır. Bir sonuç diğerinden daha iyi olabilir ancak sonucun tamamen kabul edilebilir veya kabul edilemez olduğu belirli bir eşik yoktur. Diğer alanlar ve medya türleri için çıktılar objektif olarak değerlendirilir. Örneğin, üretken bir yapay zeka programlama asistanının ürettiği kaynak kodu ya doğrudur ya da değildir. Kod bir testi geçemezse, geçerli bir çözüm koduna benzer olsa bile başarısız olur. Bu ayrık bir sonuç uzayıdır. Hem kriterlerin daha katı olması hem de iyi bir çözüme aşamalı olarak yaklaşılamaması nedeniyle ayrı bir alanda başarılı olmak daha zordur; kod aniden çalışana kadar parçalanır.

Metin çıktısı için kullanılan LLM'ler, sohbet robotları gibi öznel, sürekli uygulamalar için iyi çalışır. Ayrıca İngilizce ve Fransızca gibi birçok insan dilinde düzyazı üretimi için de iyi çalışıyorlar gibi görünüyor. Ancak mevcut Yüksek Lisanslar da pek işe yaramıyor gibi görünüyor programlama diller, bu insan dilleri için olduğu gibi. Kod, anlamı ifade etmenin doğal dilden çok farklı, nesnel bir yolu olan bir matematik biçimidir. Sürekli sonuç uzayı yerine ayrık bir sonuç uzayıdır. Roblox yaratıcıları için en yüksek kalitede programlama dili kodu üretimine ulaşmak için, bu ayrık, nesnel alanda iyi çalışabilecek Yüksek Lisans uygulama yöntemlerine ihtiyacımız var. Ayrıca kod işlevselliğini belirli bir dil sözdiziminden bağımsız olarak ifade etmek için Lua, JavaScript veya Python gibi sağlam yöntemlere de ihtiyacımız var. 

Kod oluşturmaya yönelik son teknolojiye sahip yeni bir açık kaynaklı LLM olan StarCoder, bu teknik zorlukta büyük bir ilerlemedir ve herkes için gerçekten açık bir LLM'dir. StarCoder bunun bir sonucudur büyük kod Akademik ve endüstri araştırma laboratuvarlarında 600'den fazla üyenin yer aldığı araştırma konsorsiyumu. Roblox araştırmacısı ve Northeastern Üniversitesi profesörü Arjun Guha, bu ekibin StarCoder'ı geliştirmesine liderlik etti. Bu ilk yayınlanan sonuçlar, öznel yöntemlerin göreceli başarısı göz önüne alındığında, alanın yeni büyümeye en çok ihtiyaç duyduğu alan olan kod yönüne özel olarak odaklanıyor. 

Daha büyük AI ekosistemini ve Roblox topluluğunu destekleyen LLM'ler aracılığıyla üretken AI sunmak için, yalnızca uygun şekilde lisanslanan ve sorumlu bir şekilde toplanmış veri kümeleri üzerinde eğitilmiş modellere ihtiyacımız var. Bunlar aynı zamanda herkesin bunları kullanabilmesi, üzerine inşa edebilmesi ve ekosisteme katkıda bulunabilmesi için kısıtlayıcı olmayan lisanslara da sahip olmalıdır. Bugün, en güçlü Yüksek Lisanslar özel mülkiyetlidir veya sınırlı ticari kullanım biçimleri için lisanslanmıştır; bu da araştırmacıların modelin kendisiyle deney yapma yeteneğini yasaklar veya sınırlandırır. Buna karşılık StarCoder, endüstri ve akademik araştırmacılardan oluşan bir koalisyon tarafından oluşturulan ve her ölçekteki ticari uygulama için kısıtlama olmaksızın lisanslanan, gerçekten açık bir modeldir. StarCoder yalnızca sorumlu bir şekilde toplanmış, uygun şekilde lisanslanmış içerik konusunda eğitilmiştir. Model başlangıçta genel kod üzerinde eğitildi ve kodlarının eğitim için kullanılmasını tercih etmeyenler için bir vazgeçme süreci mevcut.

Bugün StarCoder, aralarında Python, C++ ve Java'nın da bulunduğu 86 farklı programlama dilinde çalışmaktadır. Makalenin yayınlandığı tarihte, birden fazla dili destekleyen tüm açık kodlu LLM'den daha iyi performans gösteriyordu ve hatta birçok kapalı, tescilli modelle rekabet edebiliyordu. 

StarCoder LLM ekosisteme bir katkıdır ancak araştırma hedefimiz çok daha derinlere uzanıyor. Bu araştırmanın en büyük etkisi, kod, metin, görseller, konuşma, video dahil olmak üzere hem nesnel hem de öznel çok modlu modellerin semantik modellemesinin geliştirilmesi ve alan aktarım teknikleri yoluyla eğitim verimliliğinin artırılmasıdır. Ayrıca kaynak kodu oluşturma gibi nesnel görevler için üretken yapay zekanın sürdürülebilirliği ve kontrol edilebilirliği konusunda da derinlemesine bilgiler edinmeyi bekliyoruz. Gelişen teknolojinin ilgi çekici bir gösterimi ile kullanıcı topluluğuna değer katan güvenli, güvenilir ve verimli bir ürün arasında büyük bir fark vardır. ML modellerimiz için performansı bellek alanı, güç tasarrufu ve yürütme süresi açısından optimize ediyoruz. Ayrıca sağlam bir altyapı geliştirdik, yapay zeka çekirdeğini sistemin geri kalanına bağlamak için yazılımla çevreledik ve yeni özellikler eklendikçe sık güncellemeler için kusursuz bir sistem geliştirdik. 

Roblox'un bilim adamlarını ve mühendislerini bilim camiasındaki en keskin beyinlerden bazılarıyla bir araya getirmek, çığır açan teknoloji arayışımızın önemli bir bileşenidir. Bu ilk sonuçları paylaşmaktan gurur duyuyoruz ve araştırma topluluğunu bizimle iletişime geçmeye ve bu ilerlemelerden yararlanmaya davet ediyoruz.

spot_img

En Son İstihbarat

spot_img