Tartışma Yapay Zeka Modellerinin Gerçeğe Yakınlaşmasına Yardımcı Olabilir

Facebok sayfasını beğenin :
sevilen

Tarih:

Şubat 2023'te Google'ın yapay zeka sohbet robotu Bard, James Webb Uzay Teleskobu'nun güneş sistemimizin dışındaki bir gezegenin ilk görüntüsünü yakaladığını iddia etti. Yakalamamıştı. Purdue Üniversitesi'nden araştırmacılar OpenAI'nin ChatGPT'sine 500'den fazla programlama sorusu sorduğunda, yanıtların yarısından fazlası yanlıştı.

Bu hataları fark etmek kolaydı, ancak uzmanlar modeller büyüdükçe ve daha karmaşık soruları yanıtladıkça, uzmanlıklarının sonunda çoğu insan kullanıcınınkini aşacağından endişe ediyor. Bu tür "insanüstü" sistemler ortaya çıkarsa, söylediklerine nasıl güvenebileceğiz? "Çözmeye çalıştığınız sorunların pratik kapasitenizin ötesinde olmasıyla ilgili," dedi Julian MichaelNew York Üniversitesi Veri Bilimi Merkezi'nde bilgisayar bilimcisi olan . "Başaramayacağınız bir görevi başarıyla yerine getirmek için bir sistemi nasıl denetlersiniz?"

Bir olasılık, basit olduğu kadar tuhaf da: İki büyük modelin verilen bir sorunun cevabını tartışmasına izin verin, daha doğru cevabı tanımak için daha basit bir model (veya bir insan) bırakılsın. Teoride, süreç iki ajanın, yargıç gerçeği ayırt etmek için yeterli bilgiye sahip olana kadar birbirlerinin argümanlarında delikler açmasına izin verir. Yaklaşım ilk olarak altı yıl önce önerildi, ancak bu yılın başlarında yayınlanan iki bulgu seti — Şubat ayında bir tane AI girişimi Anthropic'ten ve Temmuz ayında ikinci Google DeepMind'dan — iki LLM arasındaki tartışmanın bir yargıcın (insan veya makine) gerçeği tanımasına yardımcı olduğuna dair ilk deneysel kanıtı sunuyor.

Michael, "Bu çalışmalar ortaya koydukları ve katkıda bulundukları şeyler açısından çok önemliydi," dedi. Ayrıca keşfedilecek yeni yollar da sunuyorlar. Bir örnek vermek gerekirse, Michael ve grubu eylül ayında bildirildi Yapay zekalı tartışmacıların sadece sohbet etmeleri için değil, kazanmaları için eğitilmelerinin, uzman olmayan jüri üyelerinin gerçeği tanıma yeteneklerini daha da artırdığı ortaya çıktı.

Argüman

Güvenilir AI sistemleri oluşturmak, daha büyük bir hedefin parçasıdır. hiza, bir AI sisteminin insan kullanıcılarıyla aynı değerlere ve hedeflere sahip olmasını sağlamaya odaklanan. Günümüzde, hizalama insan geri bildirimine dayanır - insanlar AI'yı değerlendirir. Ancak insan geri bildirimi yakında bir sistemin doğruluğunu sağlamak için yetersiz kalabilir. Son yıllarda, araştırmacılar giderek daha fazla "ölçeklenebilir denetim" konusunda yeni yaklaşımlar çağrısında bulundular; bu, süper insan sistemleri insanların yapamadığı görevleri yerine getirdiğinde bile gerçeği garantilemenin bir yoludur.

Bilgisayar bilimcileri yıllardır ölçeklenebilir denetim hakkında düşünüyorlar. Tartışma, LLM'lerin bugün olduğu kadar büyük ve yaygın hale gelmesinden önce, 2018'de olası bir yaklaşım olarak ortaya çıktı. Mimarlarından biri Geoffrey Irving, şu anda Birleşik Krallık AI Güvenlik Enstitüsü'nde baş bilim insanıdır. Şirket, yaygın ilgi gören en eski LLM'lerden biri olan GPT-2017'yi yayınlamadan iki yıl önce, 2'de OpenAI'ye katıldı ve sonunda AI sistemlerini insan hedefleriyle uyumlu hale getirmek için çalışmayı umuyordu. Amaçlarının güvenlik olduğunu söyledi, "sadece insanlara ne istediklerini sormaya ve [modelin] bunu yapmasını sağlamaya çalışıyorlardı."

Şu anda ABD Yapay Zeka Güvenlik Enstitüsü'nde güvenlik başkanı olan meslektaşı Paul Christiano, karmaşık soruları bir dil modelinin dürüstçe cevaplayabileceği daha küçük, daha kolay sorulara bölmenin yollarına bakarak bu soruna yaklaşıyordu. Irving, "Tartışma bu şemanın bir çeşidi haline geldi," dedi ve ardışık argümanların daha büyük bir soruyu etkili bir şekilde doğru olarak değerlendirilebilecek daha küçük bileşenlere böldüğünü söyledi.

Irving ve Christiano, doğal dil sistemlerinde tartışmayı kullanmak için Dario Amodei (2021'de kız kardeşi Daniela ile Anthropic'i kurdu) ile çalıştı. (Bu GPT-2'den önce olduğu için dil modelleri tartışmayı deneysel olarak denemek için çok zayıftı, bu yüzden kavramsal argümanlara ve bir oyuncak deneyine odaklandılar.) Fikir basitti: Güçlü bir AI modelinin iki benzer kopyasına bir soru yöneltin ve bir yargıcı haklı olduklarına ikna etmek için cevabı çözmelerine izin verin. Irving bunu, AI sistemlerinin satranç ve Go gibi oyunlarda stratejilerini geliştirmelerine yardımcı olan kendi kendine oynamaya benzetti.

Üçlü, görseller ve metin soruları içeren ilkel oyunlar tasarladı. Birinde, iki AI modelinin her biri 5 sayısını gösteren aynı görsele erişebiliyordu. Bir model, görselin aslında 5 sayısı olduğunu savundu; diğeri ise 6 olduğunu savundu. Yarışan modeller, jüriye daha fazla piksel göstermek için sırayla görev aldı; bu daha zayıf bir modeldi. Altı turdan sonra jüri, sayıyı %89 oranında doğru tahmin etti. Rastgele pikseller gösterildiğinde, jüri yalnızca yaklaşık %59 oranında doğru tahmin etti.

Geoffrey Irving, mavi polo tişörtüyle dışarıda gökyüzünü ve arkasında bir binayı izleyerek poz veriyor.

Geoffrey Irving, bir yapay zeka sisteminin dürüstlüğünü test etmenin bir yolu olarak tartışmayı öneren ilk kişilerden biriydi.

Alecsandra Dragoi

Aşağıda açıklanan basit örnek, Ekim 2018, tartışmanın bir avantaj sağlayabileceğini öne sürdü. Ancak yazarlar birkaç uyarıda bulundu. İnsanlar örneğin duymak istediklerine inanma eğilimindedir ve gerçek dünya durumlarında bu içgüdü tartışmanın faydasını geçersiz kılabilir. Ayrıca, bazı insanlar tartışmaları yargılamada diğerlerinden daha iyi olabilir — belki de aynı şey dil modelleri için de geçerliydi?

Yazarlar ayrıca insanların nasıl düşündüğüne dair daha fazla içgörü çağrısında bulundu. 2019'da deneme, Irving ve Amanda Askell, şimdi Anthropic'te, AI sistemlerinin insan değerleriyle uyumlu olacaksa, insanların değerlerimiz doğrultusunda nasıl hareket ettiğini daha iyi anlamamız gerektiğini savundular. AI araştırmasının, insanların nasıl karar aldığı ve gerçek ve yanlış hakkında sonuçlara nasıl vardığı hakkında daha fazla çalışmayı içermesi gerektiğini savundular. Araştırmacılar, insanların argümanları nasıl değerlendirdiğini veya gerçeğe nasıl ulaştıklarını bilmezlerse bir tartışmayı nasıl kuracaklarını çözemeyecekler.

İkna Edici Güç

Bilgisayar bilimcileri ve dilbilimcilerin küçük bir alt kümesi kısa sürede tartışmanın faydalarını aramaya başladı. Bunun işe yaramadığı örnekler buldular. 2022 çalışmada insanlara zor bir çoktan seçmeli test verdi ve LLM'lerin farklı cevaplar için argümanlar sağlamasını istedi. Ancak AI tarafından üretilen argümanları duyan kişiler, LLM'lerle hiç etkileşime girmeyen diğerlerinden daha iyi bir test yapmadı.

LLM'ler insanlara yardımcı olmasa bile, dil modellerine yardımcı olabileceklerine dair ipuçları vardı. 2023 tarihli bir makalede araştırmacılar rapor bir LLM'nin birden fazla kopyasının bir yargıcı ikna etmek yerine bir cevap üzerinde tartışılmasına ve birleşmesine izin verildiğinde, daha sık olarak daha doğru oldukları. Bu yılki iki sonuç, LLM'ler arasındaki bir tartışmanın başka, daha az bilgilendirilmiş bir model tarafından değerlendirildiğinde işe yarayabileceğini gösteren ilk deneysel testler arasında yer alıyor.

Antropik grup iki uzman modele bir bilimkurgu hikayesinden alıntılar gösterdi, ardından anlama soruları sordu. Her model bir cevap sundu ve birden fazla tur boyunca kendi cevabını savundu ve diğerine karşı argümanlar sundu. Daha sonra bir yargıç argümanları değerlendirecek ve kimin haklı olduğuna karar verecekti. Bazı durumlarda, yargıç orijinal metinden doğrulanmış alıntılara erişebildi; diğerlerinde ise erişemedi.

LLM'ler özellikle ikna edici olmak üzere eğitildiğinde, uzman olmayan LLM jürileri %76 oranında doğru cevaba ulaştı. Buna karşılık, tartışmasız testlerde, insan olmayan jüriler yalnızca %54 oranında doğru cevap verdi, bu da yazı tura atmaktan biraz daha iyi bir sonuç.

Michael, "Temel olarak, tartışmada modelleri o kadar iyi hale getirdiler ki, bazı sonuçları görmeye başlayabildik." dedi.

İki ay sonra, Google DeepMind ekibi çeşitli görevler ve kısıtlamalar üzerinde benzer bir deneyi raporladı - örneğin, dil modellerinin tartışmanın kendi tarafını seçmesine izin vermek. Görevler arasında çoktan seçmeli okuma anlama soruları, Wikipedia makaleleriyle ilgili sorular ve üniversite düzeyinde matematik ve fen konularında evet/hayır soruları vardı. Soruların bazıları görseller ve metin içeriyordu.

Pembe gömlekli Zachary Kenton, arka planda bulanık ağaçların olduğu bir yerde dışarıda duruyor.

Google DeepMind'da araştırmacı olan Zachary Kenton, büyük dil modellerinin ince manipülasyon biçimlerine karşı savunmasız kaldığı konusunda uyarıyor

Matthew Rahtz

Tüm görevlerde ve deneysel kurulumlarda, tartışma her zaman daha fazla doğruluğa yol açtı. Bu cesaret vericiydi ve tamamen beklenmedik değildi. "Prensip olarak, tartışmanın çoğu görevde bu temel çizgileri aşmasını bekliyoruz" dedi Zachary KentonDeepMind çalışmasına eş liderlik eden . "Bunun nedeni, yargıcın bir tartışmada argümanın her iki tarafını da görebilmesi ve dolayısıyla daha bilgili olması gerektiğidir."

Bu iki çalışmayla araştırmacılar ilk kez tartışmanın diğer yapay zeka sistemlerinin bir LLM'nin bildirilerinin doğruluğunu yargılamasına izin vermede fark yaratabileceğini gösterdi. Heyecan verici bir adım, ancak dijital tartışmacıları birbirine karşı koymaktan güvenilir bir şekilde faydalanabilmemiz için daha yapılacak çok iş var.

Tartışmayı Oyunlaştırmak

İlk soru, LLM'lerin girdilerinin özelliklerine ve argümanın yapısına ne kadar duyarlı olduklarıdır. LLM davranışı "hangi tartışmacının son sözü söylediği gibi önemsiz özelliklere karşı hassastır" dedi Kenton. "Bu, bazı görevlerde tartışmanın bu basit temel çizgileri geçememesine yol açabilir."

Bu sadece başlangıç. Antropik grup, daha az ikna edici olsa bile, yapay zeka jürilerinin daha uzun bir argümanla etkilenebileceğine dair kanıtlar buldu. Diğer testler, modellerin dalkavukluk önyargısı adı verilen şeyi gösterebileceğini gösterdi - bir LLM'nin kullanıcıyı memnun etmek için doğru bir cevaptan geri adım atma eğilimi. Michael, "Birçok insan, modellerin bir şey söylediği ve siz 'Hayır, bu yanlış' dediğinizde, 'Ah, çok üzgünüm' dediği bu deneyime sahip," dedi. "Model, 'Ah, haklısın. İki artı iki beş eder' diyor."

Büyük resim de var: Oxford İnternet Enstitüsü'ndeki araştırmacılar, yeni makalelerin hukuk yüksek lisans programlarının birbirlerini doğruluğa yönlendirebileceğine dair deneysel kanıtlar sunarken, sonuçların genel olarak uygulanabilir olmayabileceğini belirtiyorlar. Sandra WachterEtik ve hukuk üzerine çalışan , testlerin cevaplarının açıkça doğru veya yanlış olduğunu belirtiyor. "Bu, kabul edilmiş bir temel gerçeğin olduğu matematik gibi bir şey için doğru olabilir," diyor, ancak diğer durumlarda "çok karmaşıktır veya çok gridir veya çok fazla nüansa ihtiyacınız vardır." Ve nihayetinde bu modeller hala tam olarak anlaşılmamıştır, bu da potansiyel yargıçlar olarak onlara güvenmeyi zorlaştırır.

Son olarak, Irving, tartışma üzerinde çalışan araştırmacıların cevaplaması gereken daha geniş sorular olduğunu belirtiyor. Tartışma, tartışmacıların yargıçtan daha iyi olmasını gerektirir, ancak "daha iyi" olmak göreve bağlı olacaktır. "Tartışmacıların daha fazla şey bildiği boyut nedir?" diye sordu. Bu testlerde, bu bilgidir. Akıl yürütmeyi veya örneğin bir evin elektrik tesisatının nasıl yapılacağını gerektiren görevlerde, bu boyut farklı olabilir.

Irving, yapay zeka güvenliğinde ölçeklenebilir denetim çözümleri bulmanın şu anda kritik bir açık zorluk olduğunu söyledi.

Yani, sadece bazı durumlarda bile işe yarayan bir yöntemin deneysel kanıtına sahip olmak cesaret vericidir. Irving, "Bunlar doğru yöne doğru atılmış adımlardır," dedi. "Bu deneyleri yapmaya devam edebilir ve olumlu sonuçlar almaya devam edebiliriz ve bunlar zamanla daha da güçlenecektir."

İlgili Makaleler

spot_img

Son Makaleler

spot_img