Zephyrnet Logosu

Makineler Veriyi Nasıl 'Grok'lar? | Quanta Dergisi

Tarih:

Giriş

Yapay sinir ağları, tüm parlaklıklarına rağmen her zamanki gibi esrarengizliğini koruyor. Bu ağlar büyüdükçe yetenekleri patlıyor, ancak iç işleyişini çözmek her zaman neredeyse imkansız olmuştur. Araştırmacılar sürekli olarak bu modellerle ilgili bulabilecekleri her türlü bilgiyi arıyorlar.

Birkaç yıl önce yeni bir tane keşfettiler.

Ocak 2022'de ChatGPT'nin arkasındaki şirket olan OpenAI'deki araştırmacılar, rapor Bu sistemlerin, yanlışlıkla normalden çok daha uzun süre veri yemesine izin verildiğinde, sorunları çözmenin benzersiz yollarını geliştirdiğini gösterdi. Tipik olarak mühendisler, yapay nöronlar adı verilen hesaplama birimlerinden oluşan sinir ağlarından makine öğrenimi modelleri oluşturduğunda, aşırı uyum rejimi adı verilen belirli bir noktada eğitimi durdurma eğilimindedirler. Bu, ağın temel olarak eğitim verilerini ezberlemeye başladığı ve çoğu zaman yeni, görülmemiş bilgilere genelleme yapmadığı zamandır. Ancak OpenAI ekibi yanlışlıkla küçük bir ağı bu noktanın çok ötesinde eğittiğinde, soruna dair basit bir ezberlemenin ötesine geçen bir anlayış geliştirmiş gibi görünüyordu; birdenbire herhangi bir test verisini geçebilecekti.

Araştırmacılar, bilim kurgu yazarı Robert A. Heinlein tarafından bir şeyi "gözlemcinin gözlemlenen sürecin bir parçası haline gelmesini sağlayacak kadar derinlemesine anlamak" anlamına gelen bir terim olan bu fenomene "grokking" adını verdiler. Belirli matematiksel işlemleri gerçekleştirmek için tasarlanan aşırı eğitilmiş sinir ağı, sayıların genel yapısını öğrenmiş ve sonucu içselleştirmişti. Bu işe yaradı ve çözüm haline geldi.

"Bu çok heyecan verici ve düşündürücüydü" dedi Mihail Belkin Sinir ağlarının teorik ve ampirik özelliklerini inceleyen California Üniversitesi, San Diego'dan Dr. "Birçok takip çalışmasını teşvik etti."

Aslında başkaları da sonuçları kopyaladı ve hatta tersine mühendislik uyguladı. En son makaleler, bu sinir ağlarının derinlere indiğinde ne yaptığını açıklamakla kalmadı, aynı zamanda iç organlarını incelemek için yeni bir mercek de sağladı. "Grokking kurulumu, derin öğrenmenin birçok farklı yönünü anlamak için iyi bir model organizma gibidir" dedi Eric Michaud Massachusetts Teknoloji Enstitüsü'nün.

Bu organizmanın içine bakmak bazen oldukça aydınlatıcı olabiliyor. "Sadece güzel bir yapı bulmakla kalmıyor, aynı zamanda bu güzel yapı içeride neler olup bittiğini anlamak için de önemli" dedi. Neel Nanda, şimdi Londra'da Google DeepMind'da.

Sınırların ötesinde

Temelde makine öğrenimi modelinin işi basit görünüyor: Belirli bir girdiyi istenen çıktıya dönüştürmek. Bunu yapabilecek mümkün olan en iyi işlevi aramak öğrenme algoritmasının görevidir. Herhangi bir model yalnızca sınırlı sayıda fonksiyona erişebilir ve bu set genellikle modeldeki parametrelerin sayısına göre belirlenir; bu, sinir ağları durumunda kabaca yapay nöronlar arasındaki bağlantı sayısına eşdeğerdir.

Giriş

Bir ağ eğitilirken, daha karmaşık işlevleri öğrenme eğilimi gösterir ve beklenen çıktı ile gerçek çıktı arasındaki tutarsızlık, eğitim verilerinin gölgesine düşmeye başlar. Daha da iyisi, kayıp olarak bilinen bu tutarsızlık, eğitimde kullanılmayan yeni veriler olan test verileri için de azalmaya başlar. Ancak bir noktada model aşırı uyum sağlamaya başlar ve eğitim verilerindeki kayıp düşmeye devam ederken, test verilerinin kaybı artmaya başlar. Tipik olarak bu, araştırmacıların ağı eğitmeyi bıraktığı zamandır.

OpenAI ekibi bir sinir ağının nasıl matematik yapabileceğini keşfetmeye başladığında hakim görüş buydu. Küçük bir şey kullanıyorlardı transformatör - yakın zamanda büyük dil modellerinde devrim yaratan bir ağ mimarisi - kendi kendine dönen sınırlı sayıda sayıyla çalıştığınız farklı türde modüler aritmetik yapmak için. Örneğin Modulo 12, saat yüzünde yapılabilir: 11 + 2 = 1. Ekip, iki sayıyı toplamanın ağ örneklerini gösterdi, a ve b, bir çıktı üretmek için, c, modulo 97'de (97 rakamlı saat yüzüne eşdeğer). Daha sonra transformatörü görünmeyen kombinasyonlar üzerinde test ettiler. a ve b doğru tahmin edip edemeyeceğini görmek için c.

Beklendiği gibi, ağ aşırı uyum rejimine girdiğinde, eğitim verilerindeki kayıp sıfıra yaklaştı (gördüklerini ezberlemeye başlamıştı) ve test verilerindeki kayıp artmaya başladı. Genelleme değildi. Ekip lideri Alethea Power, "Sonra bir gün şansımız yaver gitti" dedi. Eylül 2022'de konuşuyoruz San Francisco'daki bir konferansta. "Ve şans derken unutkanlığı kastediyorum."

Ağı eğiten ekip üyesi tatile çıktı ve eğitimi durdurmayı unuttu. Ağın bu sürümü eğitilmeye devam ettikçe, aniden görünmeyen veriler üzerinde doğru sonuçlar elde edildi. Otomatik test, bu beklenmedik doğruluğu ekibin geri kalanına gösterdi ve çok geçmeden ağın sayıları düzenlemenin akıllıca yollarını bulduğunu fark ettiler. a ve b. Dahili olarak ağ, yüksek boyutlu uzaydaki sayıları temsil ediyor, ancak araştırmacılar bu sayıları 2 boyutlu uzaya yansıtıp haritaladıklarında sayılar bir daire oluşturdu.

Bu şaşırtıcıydı. Ekip, modele modulo 97 matematiği yaptığını veya hatta modulo'nun ne anlama geldiğini asla söylemedi; sadece aritmetik örnekleri gösterdi. Model, daha derin, analitik bir çözüme -tüm kombinasyonlara genelleştirilmiş bir denklem- rastlamış gibi görünüyordu. a ve bhatta eğitim verilerinin ötesinde. Ağ tıkandı ve test verilerinin doğruluğu %100'e çıktı. Power izleyicilere "Bu çok tuhaf" dedi.

Ekip, sonuçları farklı görevler ve farklı ağlar kullanarak doğruladı. Keşif devam etti.

Saatler ve Pizzalar

Peki ağın bulduğu denklem neydi? OpenAI makalesi bunu söylemedi ancak sonuç Nanda'nın dikkatini çekti. Çalışmaları eğitimli bir mühendisin tersine mühendisliğine odaklanan Nanda, "Sinir ağlarıyla ilgili temel gizemlerden ve sinir bozucu şeylerden biri, yaptıkları işte çok iyi olmaları, ancak varsayılan olarak nasıl çalıştıkları hakkında hiçbir fikrimizin olmamasıdır" dedi. Ağın hangi algoritmaları öğrendiğini bulmak için.

Nanda, OpenAI keşfinden büyülendi ve bozulan bir sinir ağını parçalamaya karar verdi. Modüler aritmetik yapmayı öğrenirken modelin parametrelerini yakından inceleyebilmek için OpenAI sinir ağının daha da basit bir versiyonunu tasarladı. Aynı davranışı gördü: Genellemeye yol açan aşırı uyum ve test doğruluğunda ani bir iyileşme. Ağı aynı zamanda sayıları bir daire şeklinde düzenliyordu. Biraz çaba gerektirdi ama Nanda sonunda nedenini anladı.

Ağ, bir daire üzerindeki sayıları temsil ederken, bir anaokulunun saati izlemesi gibi sadece rakamları saymıyordu: Bazı karmaşık matematiksel işlemler yapıyordu. Ağ parametrelerinin değerlerini inceleyerek, Nanda ve meslektaşları ortaya çıktı saat sayılarını, üzerlerinde "ayrık Fourier dönüşümleri" gerçekleştirerek ekliyordu; sinüs ve kosinüs gibi trigonometrik fonksiyonları kullanarak sayıları dönüştürüyor ve ardından çözüme ulaşmak için trigonometrik kimlikleri kullanarak bu değerleri değiştiriyordu. En azından kendi ağının yaptığı buydu.

MIT'de bir ekip Takip Nanda'nın çalışmasında, sinir ağlarının bu "saat" algoritmasını her zaman keşfetmediğini gösterdiler. Bazen ağlar bunun yerine araştırmacıların "pizza" algoritması dediği şeyi buluyor. Bu yaklaşım, bir pizzanın dilimlere bölünüp sırayla numaralandırıldığını hayal eder. İki sayı eklemek için pizzanın ortasından söz konusu sayılara oklar çizdiğinizi, ardından ilk iki okun oluşturduğu açıyı ikiye bölen çizgiyi hesapladığınızı hayal edin. Bu çizgi pizzanın bir diliminin ortasından geçer: Dilimin numarası iki sayının toplamıdır. Bu işlemler aynı zamanda sinüs ve kosinüslerin trigonometrik ve cebirsel manipülasyonları cinsinden de yazılabilir. a ve bve teorik olarak saat yaklaşımı kadar doğrudurlar.

Giriş

"Hem saat hem de pizza algoritmaları bu dairesel temsile sahip" dedi Ziming LiuMIT ekibinin bir üyesi. “Ama… bu sinüs ve kosinüslerden yararlanma biçimleri farklı. Bu yüzden bunlara farklı algoritmalar diyoruz.”

Ve hepsi bu kadar değildi. Liu ve meslektaşları, modülo matematik yapmak için çok sayıda ağı eğittikten sonra, bu ağlar tarafından keşfedilen algoritmaların yaklaşık %40'ının pizza veya saat algoritmalarının çeşitleri olduğunu keşfettiler. Ekip, geri kalan zamanda ağların ne yaptığını çözemedi. Liu, pizza ve saat algoritmaları için "biz insanların yorumlayabileceği bir şey buluyor" dedi.

Ve bir ağın bir sorunu araştırırken öğrendiği algoritma ne olursa olsun, genelleme konusunda araştırmacıların şüphelendiğinden çok daha güçlüdür. Maryland Üniversitesi'ndeki bir ekip basit bir sinir ağını besledi Rastgele hata içeren eğitim verileri kullanıldığında, ağ ilk başta beklendiği gibi davrandı: Eğitim verilerini, hataları ve diğerlerini gereğinden fazla sığdırın ve bozulmamış test verilerinde kötü performans gösterin. Ancak ağ bir kez araştırıp test sorularını doğru yanıtlamaya başladığında, yanlış girişler için bile doğru yanıtlar üretebiliyor, ezberlediği yanlış yanıtları unutabiliyor ve hatta eğitim verilerine bile genelleme yapabiliyordu. "Grokking görevi aslında bu tür yolsuzluklara karşı oldukça sağlam" dedi Darshil Doshi, makalenin yazarlarından biri.

Kontrol Savaşı

Sonuç olarak, araştırmacılar artık bir ağın verilerini toplamasına giden süreci anlamaya başlıyor. Nanda, grokking'in görünüşteki aniliğini, sinir ağı içinde iki farklı algoritma kullanan ezberlemeden genellemeye doğru kademeli bir iç geçişin sonucu olarak görüyor. Bir ağ öğrenmeye başladığında ilk önce daha kolay ezberleme algoritmasını çözdüğünü söyledi; ancak algoritma daha basit olmasına rağmen, ağın eğitim verilerinin her örneğini ezberlemesi gerektiğinden önemli miktarda kaynak gerektirir. Ancak ezberlerken bile sinir ağının bazı kısımları genel çözümü uygulayan devreleri oluşturmaya başlar. İki algoritma, eğitim sırasında kaynaklar için rekabet eder, ancak ağ, düzenlileştirme adı verilen ek bir bileşenle eğitilirse, sonunda genelleme kazanır.

Liu, "Düzenlileştirme, çözümü yavaş yavaş genelleme çözümüne doğru sürükler" dedi. Bu, modelin işlevsel kapasitesini, yani modelin öğrenebileceği işlevin karmaşıklığını azaltan bir süreçtir. Düzenlileştirme modelin karmaşıklığını azalttıkça, daha az karmaşık olan genelleştirme algoritması sonunda zafer kazanır. Nanda, "Aynı performans düzeyinde genelleme yapmak daha kolaydır" dedi. Son olarak sinir ağı ezberleme algoritmasını iptal eder.

Dolayısıyla, gecikmeli genelleme yeteneği aniden ortaya çıkıyor gibi görünse de, ağın dahili parametreleri genelleştirme algoritmasını sürekli olarak öğreniyor. Ancak ağ hem genelleştirme algoritmasını öğrendiğinde hem de ezberleme algoritmasını tamamen kaldırdığında, şaşırırsınız. Nanda, "Ani görünen şeylerin aslında yüzeyde kademeli olarak ortaya çıkması mümkün" dedi. diğer makine öğrenimi araştırmaları.

Bu ilerlemelere rağmen, grokking araştırmalarının henüz başlangıç ​​aşamasında olduğunu unutmamak önemlidir. Şimdiye kadar araştırmacılar yalnızca son derece küçük ağlar üzerinde çalıştılar ve bu bulguların daha büyük, daha güçlü ağlar için geçerli olup olmayacağı belli değil. Belkin ayrıca, günümüzün sinir ağlarının gerçekleştirdiği tüm farklı görevlerle karşılaştırıldığında modüler aritmetiğin "okyanusta bir damla" olduğu konusunda da uyarıyor. Böyle bir matematik için bir sinir ağının çözümüne tersine mühendislik uygulamak, bu ağları genellemeye yönlendiren genel ilkeleri anlamak için yeterli olmayabilir. Belkin, "Ağaçları incelemek harika" dedi. “Ama aynı zamanda ormanı da incelememiz gerekiyor.”

Bununla birlikte, bu ağların içine bakma ve onları analitik olarak anlama becerisinin çok büyük etkileri vardır. Çoğumuz için, Fourier dönüşümleri ve daire yaylarını ikiye bölmek modülo toplama yapmanın çok tuhaf bir yoludur; insan nöronları böyle düşünmez. Nanda, "Fakat eğer doğrusal cebir üzerine inşa edilmişseniz, bunu bu şekilde yapmak aslında çok mantıklıdır" dedi.

"Bu tuhaf (yapay) beyinler bizimkinden farklı çalışıyor" dedi. “[Onların] kendi kuralları ve yapıları var. Bir sinir ağının nasıl düşündüğünü düşünmeyi öğrenmemiz gerekiyor.”

spot_img

En Son İstihbarat

spot_img