Logo Zephyrnet

Bagaimana Mesin 'Grok' Data? | Majalah Kuanta

Tanggal:

Pengantar

Terlepas dari segala kecemerlangannya, jaringan syaraf tiruan tetap sulit dipahami seperti sebelumnya. Ketika jaringan ini semakin besar, kemampuan mereka meledak, namun menguraikan cara kerja mereka selalu hampir mustahil. Para peneliti terus mencari wawasan apa pun yang dapat mereka temukan dalam model-model ini.

Beberapa tahun lalu, mereka menemukan yang baru.

Pada Januari 2022, para peneliti di OpenAI, perusahaan di balik ChatGPT, melaporkan bahwa sistem ini, ketika secara tidak sengaja dibiarkan memakan data lebih lama dari biasanya, mengembangkan cara unik untuk memecahkan masalah. Biasanya, ketika para insinyur membuat model pembelajaran mesin dari jaringan saraf — yang terdiri dari unit komputasi yang disebut neuron buatan — mereka cenderung menghentikan pelatihan pada titik tertentu, yang disebut rezim overfitting. Ini adalah saat jaringan pada dasarnya mulai mengingat data pelatihannya dan sering kali tidak menggeneralisasi informasi baru yang tidak terlihat. Namun ketika tim OpenAI secara tidak sengaja melatih jaringan kecil yang melampaui titik ini, tampaknya mereka mengembangkan pemahaman tentang masalah yang lebih dari sekadar menghafal — mereka bisa tiba-tiba mendapatkan data pengujian apa pun.

Para peneliti menamai fenomena tersebut “grokking,” sebuah istilah yang diciptakan oleh penulis fiksi ilmiah Robert A. Heinlein yang berarti memahami sesuatu “dengan begitu menyeluruh sehingga pengamat menjadi bagian dari proses yang diamati.” Jaringan saraf yang dilatih secara berlebihan, yang dirancang untuk melakukan operasi matematika tertentu, telah mempelajari struktur umum angka-angka dan menginternalisasi hasilnya. Itu telah berkembang dan menjadi solusi.

“Ini [sangat] menarik dan menggugah pikiran,” katanya Mikhail Belkin dari University of California, San Diego, yang mempelajari sifat teoritis dan empiris jaringan saraf. “Hal ini mendorong banyak upaya tindak lanjut.”

Memang benar, pihak lain telah meniru hasilnya dan bahkan merekayasa baliknya. Makalah terbaru tidak hanya mengklarifikasi apa yang dilakukan jaringan saraf ini ketika mereka melakukan grok, tetapi juga memberikan lensa baru untuk memeriksa bagian dalam jaringan saraf tersebut. “Pengaturan grokking seperti organisme model yang baik untuk memahami banyak aspek pembelajaran mendalam yang berbeda,” katanya Eric Michaud dari Institut Teknologi Massachusetts.

Mengintip ke dalam organisme ini terkadang cukup mengungkap. “Anda tidak hanya dapat menemukan struktur yang indah, namun struktur yang indah itu penting untuk memahami apa yang terjadi secara internal,” katanya Neel Nanda, sekarang di Google DeepMind di London.

Melampaui batas

Pada dasarnya, tugas model pembelajaran mesin tampak sederhana: Mengubah masukan tertentu menjadi keluaran yang diinginkan. Tugas algoritme pembelajaran adalah mencari fungsi terbaik yang dapat melakukan hal tersebut. Model apa pun hanya dapat mengakses sekumpulan fungsi terbatas, dan kumpulan tersebut sering kali ditentukan oleh jumlah parameter dalam model, yang dalam kasus jaringan saraf kira-kira setara dengan jumlah koneksi antar neuron buatan.

Pengantar

Saat jaringan dilatih, jaringan cenderung mempelajari fungsi yang lebih kompleks, dan perbedaan antara keluaran yang diharapkan dan keluaran sebenarnya mulai terjadi pada data pelatihan. Lebih baik lagi, perbedaan ini, yang dikenal sebagai kerugian, juga mulai berkurang untuk data pengujian, yaitu data baru yang tidak digunakan dalam pelatihan. Namun pada titik tertentu, model mulai mengalami overfit, dan meskipun kerugian pada data pelatihan terus menurun, kerugian pada data pengujian mulai meningkat. Biasanya, saat itulah peneliti berhenti melatih jaringan.

Hal ini merupakan kebijaksanaan umum ketika tim OpenAI mulai mengeksplorasi bagaimana jaringan saraf dapat melakukan perhitungan. Mereka menggunakan yang kecil transformator — arsitektur jaringan yang baru-baru ini merevolusi model bahasa besar — ​​​​untuk melakukan berbagai jenis aritmatika modular, di mana Anda bekerja dengan kumpulan angka terbatas yang berputar kembali pada dirinya sendiri. Modulo 12, misalnya, dapat dilakukan pada tampilan jam: 11 + 2 = 1. Tim menunjukkan contoh jaringan penjumlahan dua bilangan, a dan b, untuk menghasilkan keluaran, c, dalam modulo 97 (setara dengan tampilan jam dengan 97 angka). Mereka kemudian menguji trafo tersebut pada kombinasi yang tidak terlihat a dan b untuk melihat apakah ia dapat memprediksi dengan benar c.

Seperti yang diharapkan, ketika jaringan memasuki rezim overfitting, kerugian pada data pelatihan mendekati nol (jaringan mulai mengingat apa yang telah dilihatnya), dan kerugian pada data pengujian mulai meningkat. Itu tidak menggeneralisasi. “Dan suatu hari, kami beruntung,” kata ketua tim Alethea Power, berbicara pada bulan September 2022 pada sebuah konferensi di San Francisco. “Dan sialnya, maksudku pelupa.”

Anggota tim yang melatih jaringan pergi berlibur dan lupa menghentikan pelatihan. Saat versi jaringan ini terus dilatih, tiba-tiba jaringan tersebut menjadi akurat pada data yang tidak terlihat. Pengujian otomatis mengungkapkan keakuratan yang tidak terduga ini kepada seluruh tim, dan mereka segera menyadari bahwa jaringan telah menemukan cara cerdas untuk mengatur angka-angkanya. a dan b. Secara internal, jaringan mewakili angka-angka dalam ruang berdimensi tinggi, tetapi ketika para peneliti memproyeksikan angka-angka ini ke ruang 2D dan memetakannya, angka-angka tersebut membentuk lingkaran.

Ini sungguh mencengangkan. Tim tidak pernah memberi tahu model tersebut bahwa mereka sedang mengerjakan matematika modulo 97, atau bahkan apa arti modulo — mereka hanya menunjukkan contoh aritmatika. Model tersebut sepertinya menemukan solusi analitis yang lebih dalam — sebuah persamaan yang dapat digeneralisasikan ke semua kombinasi a dan b, bahkan di luar data pelatihan. Jaringan telah berkembang, dan keakuratan data pengujian melonjak hingga 100%. “Ini aneh,” kata Power kepada penontonnya.

Tim memverifikasi hasilnya menggunakan tugas yang berbeda dan jaringan yang berbeda. Penemuan itu bertahan.

Tentang Jam dan Pizza

Namun persamaan apa yang ditemukan jaringan tersebut? Makalah OpenAI tidak menyebutkannya, tetapi hasilnya menarik perhatian Nanda. “Salah satu misteri inti dan hal yang menjengkelkan tentang jaringan saraf adalah bahwa mereka sangat baik dalam hal apa yang mereka lakukan, namun secara default, kita tidak tahu bagaimana cara kerjanya,” kata Nanda, yang karyanya berfokus pada rekayasa balik (reverse-engineering) seorang terlatih. jaringan untuk mencari tahu algoritma apa yang dipelajarinya.

Nanda terpesona dengan penemuan OpenAI, dan dia memutuskan untuk membongkar jaringan saraf yang telah berkembang. Dia merancang versi jaringan saraf OpenAI yang lebih sederhana sehingga dia dapat memeriksa dengan cermat parameter model saat model tersebut belajar melakukan aritmatika modular. Dia melihat perilaku yang sama: overfitting yang mengarah pada generalisasi dan peningkatan akurasi pengujian secara tiba-tiba. Jaringannya juga menyusun angka-angka dalam lingkaran. Butuh beberapa usaha, namun Nanda akhirnya mengetahui alasannya.

Meskipun mewakili angka-angka dalam lingkaran, jaringan tidak hanya menghitung angka seperti anak taman kanak-kanak yang menonton jam: Jaringan ini melakukan beberapa manipulasi matematika yang canggih. Dengan mempelajari nilai parameter jaringan, Nanda dan rekannya mengungkapkan bahwa ia menambahkan angka-angka jam dengan melakukan “transformasi Fourier diskrit” pada angka-angka tersebut - mengubah angka-angka tersebut menggunakan fungsi trigonometri seperti sinus dan kosinus dan kemudian memanipulasi nilai-nilai ini menggunakan identitas trigonometri untuk sampai pada solusinya. Setidaknya, inilah yang dilakukan jaringannya.

Ketika sebuah tim di MIT ditindaklanjuti pada karya Nanda, mereka menunjukkan bahwa jaringan saraf grokking tidak selalu menemukan algoritma “jam” ini. Terkadang, jaringan malah menemukan apa yang para peneliti sebut sebagai algoritma “pizza”. Pendekatan ini membayangkan pizza dibagi menjadi beberapa irisan dan diberi nomor secara berurutan. Untuk menjumlahkan dua angka, bayangkan menggambar anak panah dari pusat pizza ke angka yang dimaksud, lalu menghitung garis yang membagi dua sudut yang dibentuk oleh dua anak panah pertama. Garis ini melewati bagian tengah potongan pizza: Jumlah potongan adalah jumlah dari dua angka. Operasi ini juga dapat dituliskan dalam bentuk manipulasi trigonometri dan aljabar dari sinus dan cosinus dari a dan b, dan secara teoritis sama akuratnya dengan pendekatan jam.

Pengantar

“Baik algoritma jam dan pizza memiliki representasi melingkar ini,” katanya Zi Ming Liu, anggota tim MIT. “Tetapi… cara mereka memanfaatkan sinus dan kosinus ini berbeda. Itu sebabnya kami menyebutnya algoritma yang berbeda.”

Dan itu masih belum semuanya. Setelah melatih banyak jaringan untuk melakukan matematika modulo, Liu dan rekannya menemukan bahwa sekitar 40% algoritma yang ditemukan oleh jaringan ini adalah jenis algoritma pizza atau jam. Tim belum dapat menguraikan apa yang dilakukan jaringan sepanjang waktu. Untuk algoritma pizza dan jam, “kebetulan ia menemukan sesuatu yang dapat ditafsirkan oleh manusia,” kata Liu.

Dan algoritma apa pun yang dipelajari jaringan ketika memecahkan suatu masalah, algoritma ini bahkan lebih kuat dalam melakukan generalisasi daripada dugaan para peneliti. Saat tim di Universitas Maryland memberi makan jaringan saraf sederhana data pelatihan dengan kesalahan acak, jaringan pada awalnya berperilaku seperti yang diharapkan: Melakukan overfit pada data pelatihan, kesalahan dan semuanya, dan berkinerja buruk pada data pengujian yang tidak rusak. Namun, setelah jaringan melakukan grok dan mulai menjawab pertanyaan tes dengan benar, jaringan dapat menghasilkan jawaban yang benar bahkan untuk entri yang salah, melupakan jawaban yang salah dan menggeneralisasi bahkan pada data pelatihannya. “Tugas grokking sebenarnya cukup berat untuk jenis korupsi ini,” katanya Darshil Doshi, salah satu penulis makalah.

Pertempuran untuk Kontrol

Hasilnya, para peneliti kini mulai memahami proses yang mengarah pada jaringan yang mengumpulkan datanya. Nanda melihat kemunculan grokking yang tiba-tiba sebagai hasil transisi internal bertahap dari menghafal ke generalisasi, yang menggunakan dua algoritme berbeda di dalam jaringan saraf. Ketika sebuah jaringan mulai belajar, katanya, pertama-tama ia akan menemukan algoritma penghafalan yang lebih mudah; namun, meskipun algoritmenya lebih sederhana, algoritme ini memerlukan sumber daya yang besar, karena jaringan perlu mengingat setiap contoh data pelatihan. Namun meski sedang menghafal, bagian dari jaringan saraf mulai membentuk sirkuit yang mengimplementasikan solusi umum. Kedua algoritme bersaing untuk mendapatkan sumber daya selama pelatihan, namun generalisasi pada akhirnya akan menang jika jaringan dilatih dengan bahan tambahan yang disebut regularisasi.

“Regularisasi secara perlahan membawa solusi menuju solusi generalisasi,” kata Liu. Ini adalah proses yang mengurangi kapasitas fungsional model — kompleksitas fungsi yang dapat dipelajari oleh model. Ketika regularisasi memangkas kompleksitas model, algoritma generalisasi, yang tidak terlalu rumit, pada akhirnya akan menang. “Generalisasi lebih sederhana untuk [level] performa yang sama,” kata Nanda. Terakhir, jaringan saraf membuang algoritma penghafalan.

Jadi, meskipun kemampuan menggeneralisasi yang tertunda tampaknya muncul secara tiba-tiba, secara internal parameter jaringan terus mempelajari algoritma generalisasi. Hanya ketika jaringan telah mempelajari algoritme generalisasi dan sepenuhnya menghapus algoritme penghafalan barulah Anda mendapatkan grokking. “Mungkin saja hal-hal yang tampak tiba-tiba sebenarnya terjadi secara bertahap,” kata Nanda — sebuah isu yang juga muncul dalam beberapa tahun terakhir. penelitian pembelajaran mesin lainnya.

Terlepas dari terobosan-terobosan ini, penting untuk diingat bahwa penelitian grokking masih dalam tahap awal. Sejauh ini, para peneliti hanya mempelajari jaringan yang sangat kecil, dan tidak jelas apakah temuan ini akan berlaku pada jaringan yang lebih besar dan lebih kuat. Belkin juga memperingatkan bahwa aritmatika modular adalah “setetes air di lautan” dibandingkan dengan semua tugas berbeda yang dilakukan oleh jaringan saraf saat ini. Merekayasa balik solusi jaringan saraf untuk matematika semacam itu mungkin tidak cukup untuk memahami prinsip umum yang mendorong jaringan ini menuju generalisasi. “Sangat menyenangkan mempelajari pepohonan,” kata Belkin. “Tetapi kita juga harus mempelajari hutannya.”

Meskipun demikian, kemampuan untuk mengintip ke dalam jaringan ini dan memahaminya secara analitis mempunyai implikasi yang sangat besar. Bagi kebanyakan dari kita, transformasi Fourier dan membagi dua busur lingkaran adalah cara yang sangat aneh untuk melakukan penjumlahan modulo — neuron manusia tidak berpikir seperti itu. “Tetapi jika Anda dibangun berdasarkan aljabar linier, sebenarnya sangat masuk akal untuk melakukannya seperti ini,” kata Nanda.

“Otak [buatan] aneh ini bekerja secara berbeda dari otak kita,” katanya. “[Mereka] memiliki aturan dan strukturnya sendiri. Kita perlu belajar memikirkan cara berpikir jaringan saraf.”

tempat_img

Intelijen Terbaru

tempat_img