Zephyrnet Logosu

Düşünce Zinciri Akıl Yürütme Sinir Ağlarının Bilgi İşlemine Nasıl Yardımcı Olur | Quanta Dergisi

Tarih:

Giriş

Muhtemelen ilkokul öğretmeniniz size 20 basamaklı sayıların nasıl ekleneceğini göstermemiştir. Ancak daha küçük sayıları nasıl toplayacağınızı biliyorsanız, ihtiyacınız olan tek şey kağıt, kalem ve biraz sabırdır. Birler basamağından başlayın ve adım adım sola doğru ilerleyin; kısa sürede kentilyonları kolaylıkla istiflemeye başlayacaksınız.

Bunun gibi sorunlar insanlar için kolaydır, ancak onlara doğru şekilde yaklaştığımız takdirde. "Biz insanların bu sorunları çözme şekli 'ona bakıp sonra cevabı yazmak' değildir" dedi Eran MalachHarvard Üniversitesi'nde makine öğrenimi araştırmacısı. “Aslında adımların üzerinden geçiyoruz.”

Bu içgörü, ChatGPT gibi sohbet robotlarını destekleyen büyük dil modellerini inceleyen araştırmacılara ilham verdi. Bu sistemler birkaç adımlık aritmetik gerektiren soruları çözebilirken, iki büyük sayının toplamını hesaplamak gibi birçok adımı içeren problemleri sıklıkla boşa çıkarırlar. Ancak 2022'de Google araştırmacılarından oluşan bir ekip gösterdi dil modellerinden adım adım çözümler üretmelerini istemenin, modellerin daha önce ulaşamayacakları gibi görünen sorunları çözmelerine olanak tanıdığını söyledi. Düşünce zinciri yönlendirmesi olarak adlandırılan teknikleri, araştırmacıların neyin işe yaradığını anlamaya çalıştığı bir dönemde bile kısa sürede yaygınlaştı.

Artık birkaç ekip, hesaplamalı karmaşıklık teorisi adı verilen teorik bilgisayar biliminin gizemli bir dalındaki teknikleri kullanarak düşünce zinciri akıl yürütmenin gücünü keşfetti. Bu, dil modellerinin içsel yeteneklerini ve sınırlamalarını incelemek için karmaşıklık teorisini kullanan bir araştırma dizisinin son bölümüdür. Bu çabalar, modellerin nerede başarısız olmasını beklememiz gerektiğini açıklığa kavuşturuyor ve modellerin oluşturulmasında yeni yaklaşımlara işaret ediyor olabilir.

"Sihrin bir kısmını ortadan kaldırıyorlar" dedi Dimitris PapailiopoulosMadison'daki Wisconsin Üniversitesi'nde makine öğrenimi araştırmacısı. "Bu iyi birşey."

Transformatörlerin Eğitimi

Büyük dil modelleri, yapay sinir ağları adı verilen matematiksel yapılar etrafında inşa edilir. Bu ağların içindeki birçok "nöron", tek tek sözcükleri temsil eden uzun sayı dizileri üzerinde basit matematiksel işlemler gerçekleştirerek, ağdan geçen her sözcüğü diğerine dönüştürür. Bu matematiksel simyanın ayrıntıları, ağın parametreleri adı verilen ve nöronlar arasındaki bağlantıların gücünü ölçen başka bir sayı dizisine bağlıdır.

Tutarlı çıktılar üretecek bir dil modeli eğitmek için araştırmacılar genellikle parametrelerinin tamamı rastgele değerlere sahip olan bir sinir ağıyla başlıyor ve ardından bunu internetten tonlarca veriyle besliyor. Model her yeni bir metin bloğu gördüğünde, her kelimeyi sırasıyla tahmin etmeye çalışır: Birinci kelimeye göre ikinci kelimeyi, ilk iki kelimeye dayanarak üçüncü kelimeyi tahmin eder ve bu şekilde devam eder. Her tahmini gerçek metinle karşılaştırır ve ardından farkı azaltmak için parametrelerini ayarlar. Her değişiklik, modelin tahminlerini yalnızca küçük bir miktar değiştirir, ancak bunların kolektif etkisi, bir şekilde, modelin daha önce görmediği girdilere tutarlı bir şekilde yanıt vermesini sağlar.

Araştırmacılar 20 yıldır dili işlemek için sinir ağlarını eğitiyorlar. Ancak çalışmalar 2017'de Google'daki araştırmacıların yeni bir özellik tanıtmasıyla gerçekten büyük bir ivme kazandı. yeni tür ağ transformatör denir.

"Bu yedi yıl önce önerildi, tarihöncesi gibi görünüyor" dedi Pablo BarcelóŞili Papalık Katolik Üniversitesi'nde makine öğrenimi araştırmacısı.

Transformatörleri bu kadar dönüştürücü kılan şey, eğitimi aşırı derecede pahalı hale getirmeden, parametre sayısını ve eğitim verisi miktarını artırmak için ölçeklendirmenin kolay olmasıdır. Transformatörlerden önce sinir ağlarının en fazla birkaç yüz milyon parametresi vardı; Bugün en büyük transformatör tabanlı modellerin sayısı bir trilyondan fazladır. Son beş yılda dil modeli performansındaki iyileşmenin büyük kısmı, ölçeğin büyütülmesinden kaynaklanıyor.

Transformatörler, dikkat kafaları adı verilen ve onlara okudukları metnin kuşbakışı görünümünü veren özel matematiksel yapıları kullanarak bunu mümkün kıldı. Bir dönüştürücü yeni bir metin bloğunu okuduğunda, dikkat kafaları hızlı bir şekilde her şeyi tarar ve kelimeler arasındaki ilgili bağlantıları belirler; belki de dördüncü ve sekizinci kelimelerin 10'uncuyu tahmin etmek için muhtemelen en yararlı olduğunu fark ederler. Daha sonra dikkat kafaları, kelimeleri ileri beslemeli ağ adı verilen devasa bir nöron ağına aktarır; bu ağ, öğrenmesine yardımcı olacak tahminleri oluşturmak için gereken yoğun sayı hesaplamasını yapar.

Gerçek transformatörler, ileri beslemeli ağlarla ayrılmış çok sayıda dikkat kafası katmanına sahiptir ve tahminleri yalnızca son katmandan sonra ortaya koyar. Ancak her katmanda, dikkat kafaları her kelime için en uygun bağlamı zaten tanımlamıştır, böylece hesaplama açısından yoğun ileri besleme adımı metindeki her kelime için aynı anda gerçekleşebilir. Bu, eğitim sürecini hızlandırarak transformatörlerin giderek daha büyük veri kümeleri üzerinde eğitilmesini mümkün kılar. Daha da önemlisi, araştırmacıların çok büyük bir sinir ağının eğitiminin muazzam hesaplama yükünü birlikte çalışan birçok işlemciye yaymasına olanak tanır.

Devasa veri kümelerinden en iyi şekilde yararlanmak için "modelleri gerçekten büyük yapmalısınız" dedi David ÇanNotre Dame Üniversitesi'nde makine öğrenimi araştırmacısı. "Paralelleştirilmedikçe onları eğitmek pratik olmayacak."

Bununla birlikte, transformatörleri eğitmeyi bu kadar kolaylaştıran paralel yapı, eğitimden sonra yardımcı olmuyor; bu noktada, zaten var olan kelimeleri tahmin etmeye gerek yok. Sıradan çalışma sırasında, transformatörler her seferinde bir kelime çıkarır, bir sonraki kelimeyi üretmeden önce her çıkışı girişe geri bağlar, ancak yine de paralel işleme için optimize edilmiş bir mimariye takılıp kalırlar.

Transformatör tabanlı modeller büyüdükçe ve bazı görevler onlara sorun yaratmaya devam ettikçe, bazı araştırmacılar daha paralelleştirilebilir modellere doğru ilerlemenin bir bedeli olup olmadığını merak etmeye başladı. Transformatörlerin davranışını teorik olarak anlamanın bir yolu var mıydı?

Transformatörlerin Karmaşıklığı

Sinir ağlarına ilişkin teorik çalışmalar, özellikle eğitimin açıklanması sırasında birçok zorlukla karşılaşmaktadır. Sinir ağları, eğitim sürecinin her adımında parametrelerini ayarlamak için iyi bilinen bir prosedür kullanır. Ancak bu basit prosedürün neden iyi bir parametreler dizisine yakınsadığını anlamak zor olabilir.

Bazı araştırmacılar, eğitim sırasında ne olacağını düşünmek yerine, transformatörlerin parametrelerini herhangi bir isteğe bağlı değere ayarlamanın mümkün olduğunu hayal ederek transformatörlerin içsel yeteneklerini inceliyorlar. Bu, bir transformatörü özel tipte programlanabilir bir bilgisayar olarak ele almak anlamına gelir.

“Bir bilgi işlem cihazınız var ve şunu bilmek istiyorsunuz: 'Peki, bu cihaz ne yapabilir? Ne tür işlevleri hesaplayabilir?'” dedi Chiang.

Bunlar resmi hesaplama çalışmalarındaki temel sorulardır. Bu alanın tarihi, Alan Turing'in ilk kez hayal ettiği 1936 yılına kadar uzanıyor. hayal ürünü cihazArtık Turing makinesi olarak adlandırılan ve sonsuz bir bant üzerine sembolleri okuyup yazarak her türlü hesaplamayı gerçekleştirebilen makine. Hesaplamalı karmaşıklık teorisyenleri daha sonra hesaplamalı problemlerin doğal olarak farklı kategorilere ayrıldığını kanıtlayarak Turing'in çalışmasını temel alacaklardı. karmaşıklık sınıfları bunları çözmek için gereken kaynaklarla tanımlanır.

2019'da Barceló ve diğer iki araştırmacı kanıtladı Sabit sayıda parametreye sahip bir transformatörün idealleştirilmiş bir versiyonunun, bir Turing makinesi kadar güçlü olabileceği ortaya çıktı. Eğer bir transformatörü, çıkışını tekrar tekrar giriş olarak geri besleyecek şekilde ayarlarsanız ve parametrelerini çözmek istediğiniz spesifik problem için uygun değerlere ayarlarsanız, sonunda doğru cevabı verecektir.

Bu sonuç bir başlangıç ​​noktasıydı ancak transformatörlerin gücünü muhtemelen abartacak bazı gerçekçi olmayan varsayımlara dayanıyordu. O zamandan beri araştırmacılar daha gerçekçi teorik çerçeveler geliştirmeye çalıştılar.

Böyle bir çaba 2021'de başladı. William MerrillŞu anda New York Üniversitesi'nde yüksek lisans öğrencisi olan , Seattle'daki Allen Yapay Zeka Enstitüsü'ndeki iki yıllık bursundan ayrılıyordu. Oradayken, transformatörlerin paralel mimarisine pek uygun görünmeyen teknikleri kullanarak diğer sinir ağlarını analiz etmişti. Ayrılmadan kısa bir süre önce Allen Yapay Zeka Enstitüsü araştırmacısıyla bir sohbete başladı. Ashish SabharwalYapay zeka araştırmasına geçmeden önce karmaşıklık teorisi üzerinde çalışmış olan. Karmaşıklık teorisinin transformatörlerin sınırlarını anlamalarına yardımcı olabileceğinden şüphelenmeye başladılar.

“Basit bir model gibi görünüyordu; Sabharwal, kişinin kolayca tespit edebileceği bazı sınırlamaların olması gerektiğini söyledi.

İkili, genellikle paralel hesaplamayı incelemek için kullanılan ve devre karmaşıklığı adı verilen hesaplama karmaşıklığı teorisinin bir dalını kullanarak transformatörleri analiz etti. yakın zamanda uygulandı transformatörlerin basitleştirilmiş versiyonlarına. Ertesi yıl, önceki çalışmalarda gerçekçi olmayan varsayımların birçoğunu geliştirdiler. Transformatörlerin paralel yapısının yeteneklerini nasıl sınırlayabileceğini incelemek için ikili, transformatörlerin çıkışlarını girişlerine geri beslemediği durumu değerlendirdi; bunun yerine, ilk çıktılarının nihai cevap olması gerekiyordu. Onlar kanıtladı Bu teorik çerçevedeki transformatörlerin, belirli bir karmaşıklık sınıfının dışında kalan herhangi bir hesaplama problemini çözemediği. Ve doğrusal denklem çözmek gibi nispeten basit olanlar da dahil olmak üzere pek çok matematik probleminin bu dersin dışında olduğu düşünülmektedir.

Temel olarak, paralelliğin bir bedeli olduğunu gösterdiler; en azından transformatörlerin hemen bir cevap vermesi gerektiğinde. Merrill, "Transformatörler, eğer onları kullanma şekliniz bir girdi vermek ve anında bir yanıt beklemekse oldukça zayıftır" dedi.

Düşünce Deneyleri

Merrill ve Sabharwal'ın sonuçları doğal bir soruyu gündeme getirdi: Transformatörlerin çıktılarını geri dönüştürmelerine izin verildiğinde ne kadar daha güçlü hale geliyorlar? Barceló ve ortak yazarları, idealleştirilmiş transformatörlere ilişkin 2019 analizlerinde bu durumu incelemişlerdi, ancak daha gerçekçi varsayımlarla soru açık kaldı. Ve aradan geçen yıllarda araştırmacılar, soruya yeni bir anlam kazandıran düşünce zincirini keşfettiler.

Merrill ve Sabharwal, tamamen matematiksel yaklaşımlarının, gerçek dil modellerinde düşünce zinciri muhakemesinin tüm yönlerini yakalayamayacağını biliyorlardı; çok önemli olabilir. Ancak bir istem nasıl ifade edilirse edilsin, bir dil modelinin adım adım çözümler üretmesine neden olduğu sürece, model prensipte ara adımların sonuçlarını transformatörden sonraki geçişlerde yeniden kullanabilir. Bu, paralel hesaplamanın sınırlarından kurtulmanın bir yolunu sağlayabilir.

Bu arada Pekin Üniversitesi'nden bir ekip de benzer doğrultuda düşünüyordu ve ön sonuçları olumluydu. Mayıs 2023 tarihli bir makalede, Merrill ve Sabharwal'ın çerçevesindeki sıradan transformatörler için imkansız olması gereken bazı matematik problemlerini belirlediler ve gösterdi ara adımların transformatörlerin bu sorunları çözmesini sağladığı görüldü.

Ekim ayında Merrill ve Sabharwal daha önceki çalışmalarını detaylı teorik çalışma düşünce zincirinin hesaplama gücü. Bu ekstra hesaplama gücünün, bir transformatörün nihai bir cevap vermesi gerekmeden önce kullanmasına izin verilen ara adım sayısına nasıl bağlı olduğunu ölçtüler. Genel olarak araştırmacılar, herhangi bir problemi çözmek için uygun sayıda ara adımın, probleme yapılan girdinin büyüklüğüne bağlı olmasını beklerler. Örneğin, 20 basamaklı iki sayıyı toplamaya yönelik en basit strateji, 10 basamaklı iki sayıyı toplamaya yönelik aynı yaklaşımdan iki kat daha fazla ara toplama adımı gerektirir.

Bunun gibi örnekler, transformatörlerin yalnızca birkaç ara adım kullanarak fazla bir kazanç elde edemeyeceğini göstermektedir. Aslında Merrill ve Sabharwal, düşünce zincirinin ancak ara adımların sayısı girdinin boyutuyla orantılı olarak arttığında gerçekten yardımcı olmaya başladığını ve birçok problemde ara adımların sayısının daha da fazla büyümesini gerektirdiğini kanıtladı.

Sonucun titizliği araştırmacıları etkiledi. "Bunu gerçekten sabitlediler" dedi Daniel HsuColumbia Üniversitesi'nde makine öğrenimi araştırmacısı.

Merrill ve Sabharwal'ın son çalışması, düşünce zincirinin her derde deva olmadığını gösteriyor; prensipte, transformatörlerin daha zor sorunları çözmesine yardımcı olabilir, ancak yalnızca çok fazla hesaplama çabası pahasına.

Merrill, "Transformatörlerin sınırlamalarını tek adımla aşmanın farklı yolları ile ilgileniyoruz" dedi. "Düşünce zinciri bir yoldur, ancak bu makale bunun en ekonomik yol olmayabileceğini gösteriyor."

Gerçekliğe dönüş

Yine de araştırmacılar, bu tür teorik analizlerin gerçek dil modelleri hakkında ancak bu kadarını ortaya çıkarabileceği konusunda uyarıyorlar. Olumlu sonuçlar (transformatörlerin prensipte belirli sorunları çözebileceğinin kanıtı), bir dil modelinin eğitim sırasında bu çözümleri gerçekten öğreneceği anlamına gelmez.

Transformatörlerin sınırlamalarını ele alan sonuçlar bile bazı uyarıları beraberinde getiriyor: Bu sonuçlar, hiçbir transformatörün belirli sorunları her durumda mükemmel bir şekilde çözemeyeceğini gösteriyor. Tabii bu oldukça yüksek bir çıta. Hsu, "Sorunun gayet iyi halledebileceği özel durumlar olabilir" dedi.

Bu uyarılara rağmen yeni çalışma, sonunda transformatörlerin yerini alabilecek farklı türdeki sinir ağı mimarilerini analiz etmek için bir şablon sunuyor. Eğer bir karmaşıklık teorisi analizi, belirli ağ türlerinin diğerlerinden daha güçlü olduğunu öne sürüyorsa, bu, bu ağların gerçek dünyada da daha iyi durumda olabileceğinin kanıtı olabilir.

Chiang ayrıca, dil modellerinin geniş bir yelpazedeki gerçek dünya uygulamalarında giderek daha fazla kullanılması ve yeteneklerinin olduğundan fazla tahmin edilmesini kolaylaştırması nedeniyle dönüştürücülerin sınırlamaları üzerine yapılan araştırmaların daha da değerli olduğunu vurguladı.

Chiang, "Aslında o kadar da iyi yapmadıkları pek çok şey var ve sınırlamaların ne olduğunun çok ama çok farkında olmamız gerekiyor" dedi. Bu nedenle bu tür çalışmalar gerçekten önemli” dedi.

spot_img

En Son İstihbarat

spot_img