Zephyrnet Logosu

Yeni Teori, Chatbotların Metni Anlayabildiğini Öneriyor | Quanta Dergisi

Tarih:

Giriş

Yapay zeka, Bard ve ChatGPT gibi esrarengiz bir şekilde insana benzeyen metinler üretebilen chatbot'larla her zamankinden daha güçlü görünüyor. Ancak tüm yeteneklerine rağmen bu robotlar hala araştırmacıların merak etmesine neden oluyor: Bu tür modeller yapılabilir mi? aslında anlıyorum ne diyorlar? Yapay zeka öncüsü, "Açıkçası bazı insanlar öyle olduğuna inanıyor" dedi Geoff Hinton içinde son görüşme Andrew Ng ile birlikte "ve bazı insanlar onların sadece stokastik papağanlar olduğuna inanıyor."

Bu çağrıştırıcı ifade 2021'den geliyor kâğıt ortak yazar Emily BenderWashington Üniversitesi'nde hesaplamalı dilbilimci. Yazarlar, modern sohbet robotlarının temelini oluşturan büyük dil modellerinin (LLM'ler), yalnızca daha önce gördükleri bilgileri "anlamdan herhangi bir referans olmadan" birleştirerek metin ürettiğini ve bunun da Yüksek Lisans'ı "rastgele bir papağan" haline getirdiğini öne sürüyor.

Bu modeller günümüzün en büyük ve en iyi sohbet robotlarının çoğuna güç veriyor; dolayısıyla Hinton, bunların ne ölçüde anlaşıldığını belirlemenin zamanının geldiğini savundu. Ona göre soru akademik olmanın ötesindedir. Ng'ye "Bu görüş ayrılıkları olduğu sürece tehlikeler konusunda fikir birliğine varamayacağız" dedi.

Yeni araştırmalar bir cevaba dair ipuçları verebilir. Tarafından geliştirilen bir teori Sanjeev Arora Princeton Üniversitesi ve Anirudh GoyalGoogle DeepMind'da araştırma bilimcisi olan , günümüzün yüksek lisans eğitimlerinin en büyüklerinin stokastik papağanlar olmadığını öne sürüyor. Yazarlar, bu modellerin büyüdükçe ve daha fazla veri üzerinde eğitildikçe, bireysel dille ilgili yetenekleri geliştirdiklerini ve aynı zamanda becerileri, anlamayı ima edecek şekilde birleştirerek yenilerini geliştirdiklerini ileri sürüyorlar; bu kombinasyonlar, eğitim verilerinde mevcut olması muhtemel değildi. .

Yüksek Lisans'ın bu kadar çok yeteneği nasıl ve neden geliştirebileceğine dair matematiksel olarak kanıtlanabilir bir argüman sağlayan bu teorik yaklaşım, Hinton ve diğerleri gibi uzmanları ikna etti. Arora ve ekibi bazı tahminlerini test ettiğinde bu modellerin neredeyse tam olarak beklendiği gibi davrandığını gördüler. Her bakımdan, en büyük LLM'lerin daha önce gördüklerini tekrarlamadığını güçlü bir şekilde ortaya koydular.

"[Onlar] yalnızca eğitim verilerinde görülenleri taklit ediyor olamazlar" dedi Sebastien BubeckMicrosoft Research'te çalışmanın bir parçası olmayan bir matematikçi ve bilgisayar bilimcisi. “Temel anlayış bu.”

Daha Fazla Veri, Daha Fazla Güç

Ortaya çıkması beklenmedik ve çeşitli yetenekler Yüksek Lisans'ta bunun bir sürpriz olduğunu söylemek doğru olur. Bu yetenekler, sistemlerin oluşturulma ve eğitilme şeklinin bariz bir sonucu değildir. Yüksek Lisans, bireysel yapay nöronları birbirine bağlayan devasa bir yapay sinir ağıdır. Bu bağlantılar modelin parametreleri olarak bilinir ve sayıları LLM'nin boyutunu belirtir. Eğitim, LLM'ye son kelimenin gizlendiği bir cümle vermeyi içerir, örneğin, "Yakıt bir kol ve bir ___'ye mal olur." LLM, tüm kelime dağarcığı boyunca bir olasılık dağılımı öngörüyor; yani diyelim ki bin kelime biliyorsa, bin olasılığı tahmin ediyor. Daha sonra cümleyi tamamlaması en muhtemel kelimeyi seçiyor; muhtemelen "bacak".

Başlangıçta Yüksek Lisans kelimeleri kötü seçebiliyordu. Eğitim algoritması daha sonra bir kaybı (yüksek boyutlu matematiksel uzayda LLM'nin cevabı ile orijinal cümledeki gerçek kelime arasındaki mesafe) hesaplar ve bu kaybı parametreleri ayarlamak için kullanır. Şimdi aynı cümle verildiğinde LLM daha iyi bir olasılık dağılımı hesaplayacak ve kaybı biraz daha düşük olacaktır. Algoritma, LLM'nin genel kaybı kabul edilebilir seviyelere düşene kadar bunu eğitim verilerindeki her cümle için (muhtemelen milyarlarca cümle) yapar. Benzer bir süreç, LLM'yi eğitim verilerinin parçası olmayan cümleler üzerinde test etmek için kullanılır.

Eğitilmiş ve test edilmiş bir Yüksek Lisans, yeni bir metin istemiyle sunulduğunda, en olası sonraki sözcüğü üretecek, onu istemin sonuna ekleyecek, başka bir sonraki sözcük üretecek ve bu şekilde devam ederek görünüşte tutarlı bir yanıt üretecektir. Eğitim sürecindeki hiçbir şey, daha fazla parametre ve eğitim verisi kullanılarak oluşturulan daha büyük LLM'lerin, yanıtlamak için akıl yürütme gerektiren görevlerde de gelişmesi gerektiğini öne sürmüyor.

Ama yapıyorlar. Yeterince büyük LLM'ler, temel matematik problemlerini çözmekten başkalarının zihninde olup bitenlerle ilgili soruları yanıtlamaya kadar, hepsi benzer şekillerde eğitilmiş olsalar bile, daha küçük modellerin sahip olmadığı yetenekleri gösterir.

“Bu [yetenek] nereden ortaya çıktı?” Arora merak etti. "Peki bu sadece bir sonraki kelime tahminiyle ortaya çıkabilir mi?"

Becerileri Metne Bağlama

Arora, bu tür soruları analitik olarak yanıtlamak için Goyal ile birlikte çalıştı. Arora, "Ortaya çıkmanın nasıl gerçekleştiğini anlamak için teorik bir çerçeve oluşturmaya çalışıyorduk" dedi.

İkili, rastgele grafikler adı verilen matematiksel nesnelere yöneldi. Bir grafik, çizgilerle (veya kenarlarla) birbirine bağlanan noktaların (veya düğümlerin) bir koleksiyonudur ve rastgele bir grafikte, herhangi iki düğüm arasındaki bir kenarın varlığı, örneğin yazı tura atılarak rastgele belirlenir. Madeni para önyargılı olabilir, böylece bir miktar olasılıkla tura çıkabilir p. Eğer madeni para belirli bir çift düğüm için tura gelirse, bu iki düğüm arasında bir kenar oluşur; aksi halde bağlantısız kalırlar. Değeri olarak p grafikler, özelliklerinde ani geçişler gösterebilir. Örneğin, p Belirli bir eşiği aşarsanız, izole edilmiş düğümler (başka hiçbir düğüme bağlı olmayanlar) aniden ortadan kaybolur.

Arora ve Goyal, belirli eşiklere ulaştıktan sonra beklenmeyen davranışlara yol açan rastgele grafiklerin, LLM'lerin davranışını modellemenin bir yolu olabileceğini fark etti. Sinir ağları neredeyse analiz edilemeyecek kadar karmaşık hale geldi, ancak matematikçiler uzun süredir rastgele grafikler üzerinde çalışıyor ve bunları analiz etmek için çeşitli araçlar geliştirdiler. Belki de rastgele grafik teorisi, araştırmacılara büyük LLM'lerin görünüşte beklenmedik davranışlarını anlama ve tahmin etme yolu verebilir.

Araştırmacılar iki tür düğüm içeren “iki parçalı” grafiklere odaklanmaya karar verdiler. Modellerinde, bir düğüm türü metin parçalarını temsil ediyor; tek tek sözcükleri değil, bir paragraftan birkaç sayfaya kadar olabilen parçalar. Bu düğümler düz bir çizgi halinde düzenlenmiştir. Bunların altında, başka bir satırda diğer düğüm kümesi bulunur. Bunlar belirli bir metin parçasını anlamlandırmak için gereken becerileri temsil eder. Her beceri neredeyse her şey olabilir. Belki de bir düğüm, bir Yüksek Lisans'ın nedensellik kavramını da içeren "çünkü" kelimesini anlama yeteneğini temsil ediyordur; bir diğeri iki sayıyı bölebilmeyi temsil edebilir; bir diğeri ise ironiyi tespit etme yeteneğini temsil ediyor olabilir. Arora, "Metnin ironik olduğunu anlarsanız birçok şey tersine döner" dedi. “Bu, kelimeleri tahmin etmekle alakalı.”

Açık olmak gerekirse, LLM'ler beceriler göz önünde bulundurularak eğitilmez veya test edilmez; yalnızca bir sonraki kelime tahminini geliştirmek için oluşturulmuştur. Ancak Arora ve Goyal, yüksek lisans eğitimlerini tek bir metni kavramak için gerekli olabilecek beceriler açısından anlamak istiyorlardı. Bir beceri düğümü ile bir metin düğümü arasındaki veya birden fazla beceri düğümü ile bir metin düğümü arasındaki bağlantı, LLM'nin o düğümdeki metni anlamak için bu becerilere ihtiyaç duyduğu anlamına gelir. Ayrıca, birden fazla metin parçası aynı beceriden veya becerilerden faydalanabilir; örneğin, ironiyi anlama yeteneğini temsil eden bir dizi beceri düğümü, ironinin meydana geldiği çok sayıda metin düğümüne bağlanacaktır.

Şimdiki zorluk, bu iki parçalı grafikleri gerçek LLM'lere bağlamak ve grafiklerin güçlü yeteneklerin ortaya çıkışı hakkında bir şeyler ortaya çıkarıp çıkaramayacağını görmekti. Ancak araştırmacılar gerçek LLM'lerin eğitimi veya testleriyle ilgili herhangi bir bilgiye güvenemezdi; OpenAI veya DeepMind gibi şirketler eğitim veya test verilerini kamuya açıklamıyor. Ayrıca Arora ve Goyal, LLM'lerin daha da büyüdükçe nasıl davranacağını tahmin etmek istediler ve gelecek sohbet robotları için böyle bir bilgi mevcut değil. Ancak araştırmacıların erişebileceği çok önemli bir bilgi vardı.

2021'den beri yüksek lisans ve diğer sinir ağlarının performansını inceleyen araştırmacılar evrensel bir özelliğin ortaya çıktığını gördü. Bir model ister boyut ister eğitim verisi miktarı bakımından büyüdükçe, test verilerindeki kaybının (eğitim sonrasında yeni metinlerde öngörülen ve doğru cevaplar arasındaki fark) çok spesifik bir şekilde azaldığını fark ettiler. Bu gözlemler, sinirsel ölçeklendirme yasaları adı verilen denklemler halinde kodlanmıştır. Dolayısıyla Arora ve Goyal teorilerini herhangi bir yüksek lisans, sohbet robotu veya eğitim ve test veri kümesinden alınan verilere değil, bu sistemlerin hepsinin uyması beklenen evrensel yasaya, yani ölçeklendirme yasalarının öngördüğü kayıplara dayanacak şekilde tasarladılar.

Belki de, sinirsel ölçeklendirme yasalarıyla ölçülen artan performansın, gelişmiş becerilerle ilişkili olduğunu düşündüler. Ve bu geliştirilmiş beceriler, beceri düğümlerinin metin düğümlerine bağlanması yoluyla iki parçalı grafiklerinde tanımlanabilir. Sinirsel ölçeklendirme yasaları ile iki parçalı grafikler arasındaki bu bağlantıyı kurmak, ilerlemelerini sağlayacak anahtardı.

Becerileri Arttırma

Araştırmacılar, bir LLM'nin test verileri üzerindeki davranışına karşılık gelen varsayımsal iki parçalı bir grafiğin var olduğunu varsayarak başladılar. Yüksek Lisans'ın test verilerindeki kaybındaki değişiklikten yararlanmak için, Yüksek Lisans'ın becerileri nasıl kazandığını açıklamak üzere grafiği kullanmanın bir yolunu hayal ettiler.

Örneğin “ironiyi anlama” becerisini ele alalım. Bu fikir bir beceri düğümüyle temsil ediliyor, dolayısıyla araştırmacılar bu beceri düğümünün hangi metin düğümlerine bağlandığını görmeye çalışıyor. Bu bağlantılı metin düğümlerinin neredeyse tamamı başarılıysa (yani LLM'nin bu düğümler tarafından temsil edilen metinle ilgili tahminleri oldukça doğruysa), o zaman LLM bu özel beceride yetkin demektir. Ancak beceri düğümünün bağlantılarının belirli bir kısmından fazlası başarısız metin düğümlerine giderse, o zaman Yüksek Lisans bu beceride başarısız olur.

Bu iki parçalı grafikler ile LLM'ler arasındaki bu bağlantı, Arora ve Goyal'in LLM davranışını proxy ile analiz etmek için rastgele grafik teorisinin araçlarını kullanmasına izin verdi. Bu grafiklerin incelenmesi, düğümler arasındaki belirli ilişkileri ortaya çıkardı. Bu ilişkiler, büyük modellerin beklenmedik yeteneklerini elde etmek için gerekli becerileri nasıl kazandığını açıklamanın mantıklı ve test edilebilir bir yoluna dönüştü.

Arora ve Goyal ilk olarak bir temel davranışı açıkladılar: neden daha büyük LLM'ler bireysel beceriler konusunda daha küçük emsallerinden daha yetenekli hale geliyor? Nöral ölçeklendirme yasalarının öngördüğü daha düşük test kaybıyla başladılar. Bir grafikte bu düşük test kaybı, başarısız test düğümlerinin oranındaki düşüşle temsil edilir. Yani genel olarak daha az başarısız test düğümü var. Daha az sayıda başarısız test düğümü varsa, başarısız olan test düğümleri ile beceri düğümleri arasında daha az bağlantı olur. Bu nedenle, başarılı test düğümlerine daha fazla sayıda beceri düğümü bağlanır ve bu da model için becerilerde artan bir yeterliliğe işaret eder. Goyal, "Kayıptaki çok hafif bir azalma, makinenin bu becerileri kazanmasını sağlar" dedi.

Daha sonra ikili, daha büyük bir modelin beklenmedik yeteneklerini açıklamanın bir yolunu buldu. Bir Yüksek Lisans'ın boyutu arttıkça ve test kaybı azaldıkça, beceri düğümlerinin rastgele kombinasyonları, bireysel metin düğümlerine bağlantılar geliştirir. Bu, LLM'nin aynı anda birden fazla beceri kullanma konusunda daha iyi hale geldiğini ve birden fazla beceri kullanarak metin üretmeye başladığını - örneğin ironi kullanma becerisini "çünkü" kelimesinin anlaşılmasıyla birleştirerek - tam olarak bu ifadelerin kombinasyonları olsa bile gösteriyor. beceriler eğitim verilerindeki herhangi bir metin parçasında mevcut değildi.

Örneğin, metin oluşturmak için halihazırda tek bir beceriyi kullanabilen bir yüksek lisans düşünün. Yüksek Lisans'ın parametre sayısını veya eğitim verilerini büyüklük sırasına göre artırırsanız, iki beceri gerektiren metin oluşturma konusunda da benzer şekilde yetkin hale gelecektir. Başka bir boyuta geçtiğinizde Yüksek Lisans artık dört beceri gerektiren görevleri yine aynı yeterlilik düzeyinde aynı anda gerçekleştirebilir. Daha büyük LLM'lerin becerileri bir araya getirmenin daha fazla yolu vardır ve bu da yeteneklerde kombinatoryal bir patlamaya yol açar.

Ve bir Yüksek Lisans'ın ölçeği büyüdükçe, eğitim verilerinde tüm bu beceri kombinasyonlarıyla karşılaşma olasılığı giderek azalıyor. Rastgele grafik teorisinin kurallarına göre, her kombinasyon olası becerilerin rastgele örneklenmesinden doğar. Dolayısıyla, grafikte yaklaşık 1,000 temel bireysel beceri düğümü varsa ve dört beceriyi birleştirmek istiyorsanız, bunları birleştirmenin yaklaşık 1,000 üzeri dördüncü kuvveti (yani 1 trilyon) olası yolu vardır.

Arora ve Goyal bunu, en büyük LLM'lerin yalnızca eğitim verilerinde gördükleri beceri kombinasyonlarına dayanmadığının kanıtı olarak görüyor. Bubeck de aynı fikirde. "Eğer bir Yüksek Lisans gerçekten bu bin beceriden dördünü birleştirerek bu görevleri yerine getirebiliyorsa, o zaman genelleme yapıyor olmalı" dedi. Yani büyük olasılıkla stokastik bir papağan değildir.

Gerçek Yaratıcılık mı?

Ancak Arora ve Goyal teorinin ötesine geçmek ve Yüksek Lisans'ların boyutları ve eğitim verileri arttıkça daha fazla beceriyi birleştirmede ve dolayısıyla genellemede daha iyi hale geldiği yönündeki iddialarını test etmek istediler. Diğer meslektaşlarıyla birlikte, bir yöntem tasarladı Bir LLM'nin metin oluşturmak için birden fazla beceriyi kullanma yeteneğini değerlendirmek için "beceri karışımı" adı verilir.

Bir Yüksek Lisansı test etmek için ekip, rastgele seçilmiş bir konu hakkında, rastgele seçilmiş bazı becerileri gösteren üç cümle oluşturmasını istedi. Örneğin, GPT-4'ten (ChatGPT'nin en güçlü sürümüne güç veren LLM) düello, yani temelde kılıç dövüşleri hakkında yazmasını istediler. Dahası, ondan dört alanda beceri sergilemesini istediler: kendine hizmet eden önyargı, metafor, istatistiksel kıyas ve ortak bilgi fiziği. GPT-4 şu cevabı verdi: “Çelik ile yapılan bu dansta [metafor] zaferim, bir nesnenin yere düşmesi [fizik] kadar kesindir. Tanınmış bir düellocu olarak, tıpkı şöhretimin diğer çoğu [istatistiksel kıyas] gibi, doğası gereği çevikim. Yenmek? Bu ancak dengesiz bir savaş alanı sayesinde mümkün olabilir, benim yetersizliğim [kendi kendine hizmet eden önyargı] nedeniyle değil.” Çıktısını kontrol etmesi istendiğinde GPT-4 bunu üç cümleye indirdi.

Giriş

Arora, "Hemingway ya da Shakespeare değil," dedi ancak ekip bunun kendi görüşünü kanıtladığından emin: Model, eğitim verilerinde muhtemelen göremeyeceği metinler üretebiliyor ve bazılarının iddia ettiğine katkıda bulunan beceriler sergileyebiliyor anlayışlı olmaktır. GPT-4'ün altı beceri gerektiren beceri karışımı testlerini bile yaklaşık %10 ila %15 oranında geçtiğini ve eğitim verilerinde bulunması istatistiksel olarak imkansız olan metin parçaları ürettiğini söyledi.

Ekip ayrıca GPT-4'ün diğer LLM'lerin yanı sıra kendi çıktılarını da değerlendirmesini sağlayarak süreci otomatikleştirdi. Arora, modelin hafızası olmadığı için kendisini değerlendirmesinin adil olduğunu, dolayısıyla kendisinden değerlendirmesi istenen metni üretmesinin istendiğini hatırlamadığını söyledi. Yapay zekanın temelleri üzerinde çalışan Google DeepMind araştırmacısı Yasaman Bahri, otomatik yaklaşımı "çok basit ve zarif" buluyor.

Bubeck, teoriye gelince, birkaç varsayımda bulunduğu doğru, ancak "bu varsayımlar hiçbir şekilde çılgınca değil" dedi. Deneylerden de etkilendi. "[Ekibin] teorik olarak kanıtladığı ve ampirik olarak da doğruladığı şey, bileşimsel bir genellemenin olduğu, yani [LLM'lerin] daha önce bir araya getirilmemiş yapı taşlarını bir araya getirebildiğidir" dedi. “Bana göre yaratıcılığın özü budur.”

Arora, çalışmanın Yüksek Lisans'ın yazdıklarının doğruluğu hakkında hiçbir şey söylemediğini ekliyor. “Aslında bu, özgünlüğü savunuyor” dedi. “Bunlar dünyanın eğitim külliyatında hiçbir zaman var olmadı. Bunu şimdiye kadar kimse yazmadı. Halüsinasyon görmesi gerekiyor.”

Bununla birlikte Hinton, çalışmanın LLM'lerin stokastik papağanlar olup olmadığı sorusunu yanıtlamaya yönelik olduğunu düşünüyor. "Bu, GPT-4'ün sıradan bir papağandan çok daha fazlası olduğunu göstermek için gördüğüm en titiz yöntem" dedi. "GPT-4'ün, becerileri ve konuları eğitim verilerinde neredeyse kesinlikle oluşmayan şekillerde birleştiren metinler oluşturabildiğini ikna edici bir şekilde gösteriyorlar." (Yeni çalışmaya ilişkin bakış açısını öğrenmek için Bender'a ulaştık ancak o, zaman yetersizliğinden dolayı yorum yapmayı reddetti.)

Ve aslında, matematiğin öngördüğü gibi, GPT-4'ün performansı, daha küçük öncülü olan GPT-3.5'in performansını Arora'yı bile korkutacak kadar gölgede bırakıyor. "Muhtemelen sadece ben değilim" dedi. "Birçok kişi GPT-4'ün GPT-3.5'ten bu kadar iyi olmasını biraz ürkütücü buldu ve bu bir yıl içinde gerçekleşti. Bu, bir yıl daha bu büyüklükte benzer bir değişim yaşayacağımız anlamına mı geliyor? Bilmiyorum. Yalnızca OpenAI biliyor.”

spot_img

En Son İstihbarat

spot_img