Zephyrnet Logosu

Google DeepMind Satranç Yapay Zekasında 'Yapay Beyin Fırtınası'nı Eğitiyor | Quanta Dergisi

Tarih:

Giriş

Bilgisayar bilimcisi, 19'nin başlarında Kovid-2020 insanları evlerine gönderdiğinde Tom Zahavy satrancı yeniden keşfetti. Çocukken oynamıştı ve yakın zamanda Garry Kasparov'un kitabını okumuştu. Derin düşünmek, büyük ustanın 1997'de IBM'in satranç oynayan bilgisayarı Deep Blue'ya karşı yaptığı maçların bir anısı. YouTube'da satranç videoları izledi ve Kraliçe Gambiti Netflix'te.

Zahavy, yenilenen ilgisine rağmen oyununu geliştirmenin yollarını aramıyordu. "Ben harika bir oyuncu değilim" dedi. "Satranç bulmacalarında daha iyiyim" - genellikle yapmacık olan ve gerçek bir oyun sırasında oluşması pek mümkün olmayan, oyuncuyu avantaj elde etmenin yaratıcı yollarını bulmaya zorlayan parça düzenlemeleri.

Bulmacalar oyuncuların becerilerini geliştirmelerine yardımcı olabilir, ancak son zamanlarda satranç programlarının gizli sınırlamalarını ortaya çıkarmaya da yardımcı oldular. Matematikçi Sir Roger Penrose tarafından 2017 yılında tasarlanan en ünlü bulmacalardan biri, daha güçlü siyah taşları (vezir ve kaleler gibi) tahtaya garip konumlarda yerleştiriyor. Beyaz oynayan deneyimli bir insan oyuncu oyunu kolayca beraberliğe çevirebilir, ancak güçlü bilgisayar satranç programları siyahın açık bir avantaja sahip olduğunu söylerdi. Zahavy, bu farkın, bilgisayarların dünyanın en iyi insan oyuncularını yenebilmesine rağmen, henüz her türlü zor sorunu tanıyıp çözemediklerini öne sürdüğünü söyledi. O zamandan bu yana Penrose ve diğerleri, bilgisayarların çözmeye çalıştığı bulmacalardan oluşan geniş bir koleksiyon geliştirdiler.

Satranç uzun zamandır yeni fikirlerin test edilmesinde bir mihenk taşı olmuştur. yapay zekave Penrose'un bulmacaları Zahavy'nin ilgisini çekti. "En azından bazılarını insan olarak çözebildiğimizde, bu pozisyonları bilgisayarlar için bu kadar zorlaştıran şeyin ne olduğunu anlamaya çalışıyordum" dedi. “Tamamen büyülendim.” Kısa sürede profesyonel bir ilgiye dönüştü: Google DeepMind'da araştırma bilimcisi olarak Zahavy, yaratıcı problem çözme yaklaşımlarını araştırıyor. Amaç, tek bir görevi yerine getirmenin ötesinde olası davranışlara sahip yapay zeka sistemleri tasarlamaktır.

Kazanmak için eğitilmiş geleneksel bir yapay zeka satranç programı, Penrose bulmacasını anlamayabilir, ancak Zahavy, birçok farklı sistemden oluşan ve grup olarak birlikte çalışan bir programın ilerleme kaydedebileceğinden şüpheleniyordu. Böylece o ve meslektaşları, DeepMind'in güçlü satranç programı AlphaZero'dan başlayarak, her biri farklı stratejiler için optimize edilmiş ve eğitilmiş birden fazla (en fazla 10) karar verme yapay zeka sistemini bir araya getirmenin bir yolunu geliştirdi. Yeni sistem onlar Ağustos ayında bildirdi, tek başına AlphaZero'dan daha iyi oynadı ve Penrose'un bulmacalarıyla baş etmede daha fazla beceri ve daha fazla yaratıcılık gösterdi. Bu yetenekler bir bakıma kişisel işbirliğinden geliyordu: Bir yaklaşım duvara çarptığında program hemen diğerine dönüyordu.

Bu yaklaşımın temelde mantıklı olduğunu söyledi Allison LiemhetcharatDoorDash'te robot biliminde problem çözmeye yönelik çok etmenli yaklaşımlarla çalışan bir bilgisayar bilimcisi. "Bir ajan popülasyonu söz konusu olduğunda bulmacaların, ajanlardan en az birinin eğitim aldığı alanda olma olasılığı daha yüksektir."

Çalışma, çeşitli yapay zeka sistemlerinden oluşan ekiplerin, oyun tahtasının çok ötesindeki zor sorunları etkili bir şekilde çözebileceğini öne sürüyor. "Bu, bir sorunu çözmek için birden fazla yol aramanın (bir satranç oyununu kazanmak gibi) pek çok fayda sağladığını gösteren harika bir örnek" dedi. Antoine CullyDeepMind projesine dahil olmayan Imperial College London'dan bir yapay zeka araştırmacısı. Bunu, insanların beyin fırtınası oturumlarının yapay bir versiyonuyla karşılaştırdı. "Bu düşünce süreci, bu alıştırmayı yapmadan kişinin kaçıracağı yaratıcı ve etkili çözümlere yol açıyor."

Başarısızlıkların Peşinde

DeepMind'a katılmadan önce Zahavy, bir sistemin bazı görevleri deneme yanılma yoluyla öğrenmek için sinir ağlarını kullandığı bir yapay zeka alanı olan derin takviyeli öğrenmeyle ilgileniyordu. En güçlü satranç programlarının temelidir (ve sürücüsüz arabalar gibi diğer yapay zeka uygulamalarında da kullanılır). Sistem çevresi ile başlar. Örneğin satrançta ortam, oyun tahtasını ve olası hamleleri içerir. Görev araba kullanmaksa çevre, aracın etrafındaki her şeyi içerir. Sistem daha sonra kararlar alıyor, aksiyonlar alıyor ve hedefine ne kadar yaklaştığını değerlendiriyor. Hedefe yaklaştıkça ödülleri biriktirir ve sistem ödülleri artırdıkça performansını artırır. Bu yaklaşımın “derin” kısmı, davranışları analiz etmek ve değerlendirmek için kullanılan sinir ağlarını tanımlar.

Takviyeli öğrenme, AlphaZero'nun bir satranç ustası olmayı nasıl öğrendiğidir. Derin Düşünce rapor programın Aralık 2017'deki ilk dokuz saatlik eğitimi sırasında kendisine karşı 44 milyon oyun oynadığını söyledi. İlk başta hamleleri rastgele belirlendi, ancak zamanla şah mata yol açma olasılığı daha yüksek olan hamleleri seçmeyi öğrendi. Sadece saatler süren eğitimin ardından AlphaZero, herhangi bir insan satranç oyuncusunu yenme yeteneğini geliştirdi.

Ancak takviyeli öğrenme ne kadar başarılı olursa olsun, her zaman oyunun genel anlayışını yansıtan stratejilere yol açmaz. Son yarım on yılda Zahavy ve diğerleri, deneme yanılma yoluyla eğitilen sistemlerde meydana gelebilecek tuhaf aksaklıklarda bir artış olduğunu fark ettiler. Örneğin video oyunları oynayan bir sistem bir boşluk bulabilir ve nasıl hile yapılacağını veya bir seviyeyi atlanacağını bulabilir veya aynı kolaylıkla tekrarlanan bir döngüye sıkışıp kalabilir. Penrose tarzı bulmacalar da benzer şekilde AlphaZero'da bir tür kör nokta veya aksaklık olduğunu gösteriyordu; daha önce hiç görmediği bir soruna nasıl yaklaşacağını çözemiyordu.

Ancak belki de tüm aksaklıklar sadece hata değildir. Zahavy, AlphaZero'nun kör noktalarının aslında başka bir şeyin gizlenmiş olabileceğinden şüpheleniyordu; kararların ve davranışların sistemin dahili ödüllerine bağlı olması. Derin takviyeli öğrenme sistemlerinin nasıl başarısız olacağını, hatta başarısızlığın nasıl tanınacağını bilmediğini söyledi. Başarısız olma yeteneği uzun zamandır yaratıcı problem çözmeyle ilişkilendirilmiştir. Kasparov, "Yaratıcılığın insani bir niteliği vardır" diye yazdı. Derin düşünmek. “Başarısızlık kavramını kabul ediyor.”

Yapay zeka sistemleri genellikle bunu yapmaz. Ve eğer bir sistem görevini tamamlamada başarısız olduğunu fark etmezse o zaman başka bir şey denemeyebilir. Bunun yerine, halihazırda yapılmış olanı yapmaya devam edecek. Zahavy, video oyunlarındaki çıkmazlara ya da bazı Penrose mücadelelerinde takılıp kalmamıza yol açan şeyin muhtemelen bu olduğunu söyledi. Sistemin, eğitimi sırasında geliştirdiği "tuhaf türden içsel ödüllerin" peşinde olduğunu söyledi. Dışarıdan hata gibi görünen şeyler muhtemelen spesifik ama sonuçta başarısız stratejiler geliştirmenin sonucuydu.

Sistem bu garip ödülleri aslında başaramadığı daha büyük bir hedefe doğru atılan adımlar olarak görüyordu ve yeni bir şey denemeyi bilmiyordu. Zahavy, "Onları anlamlandırmaya çalışıyordum" dedi.

Daha İyi Bir Oyun

Bu aksaklıkların bu kadar önemli ve bu kadar faydalı olmasının bir nedeni, araştırmacıların genellemeyle ilgili bir sorun olarak kabul ettiği şeyden kaynaklanmaktadır. Takviyeli öğrenme sistemleri, belirli bir durumu belirli bir eyleme bağlamak için etkili bir strateji geliştirebilirken (araştırmacılar buna "politika" adını verir) bunu farklı sorunlara uygulayamazlar. "Normalde, yöntem ne olursa olsun, takviyeli öğrenmede meydana gelen şey, üzerinde eğitim aldığınız sorunun belirli bir örneğini çözen politikayı elde etmenizdir, ancak bu genelleme yapmaz" dedi. Julian TogeliusNew York Üniversitesi'nde bilgisayar bilimcisi ve modl.ai'de araştırma direktörü.

Zahavy, Penrose bulmacalarının tam da bu tür bir genelleme gerektirdiğini düşünüyordu. Belki AlphaZero bulmacaların çoğunu çözemedi çünkü baştan sona tüm oyunları kazanmaya çok odaklanmıştı. Ancak bu yaklaşım, Penrose bulmacalarındaki parçaların beklenmedik şekilde düzenlenmesinin ortaya çıkardığı kör noktaları ortaya çıkardı. Belki de, beyin fırtınası yapmak ve farklı eğitim yöntemlerine erişmek için yeterli yaratıcı alana sahip olması halinde programın bulmacayı çözmeyi öğrenebileceğini düşündü.

Böylece o ve meslektaşları ilk önce 53 Penrose bulmacası ve 15 ek meydan okuma bulmacasından oluşan bir set topladılar. AlphaZero tek başına Penrose bulmacalarının %4'ünden azını, geri kalanların ise %12'sinden azını çözdü. Zahavy şaşırmamıştı: Bu bulmacaların birçoğu satranç ustaları tarafından kasıtlı olarak bilgisayarların kafasını karıştırmak için tasarlandı.

Bir test olarak araştırmacılar, AlphaZero'yu tipik oyunların tam tahtası yerine başlangıç ​​pozisyonu olarak Penrose bulmaca düzenlemesini kullanarak kendisine karşı oynayacak şekilde eğitmeyi denediler. Performansı önemli ölçüde arttı: Penrose bulmacalarının %96'sını ve görev setinin %76'sını çözdü. Genel olarak, AlphaZero belirli bir bulmaca üzerinde eğitim aldığında, tıpkı tam bir oyunda eğitim aldığında kazanabildiği gibi, bu bulmacayı da çözebiliyordu. Zahavy, belki de, eğer bir satranç programı AlphaZero'nun farklı pozisyonlarda eğitilmiş tüm bu farklı versiyonlarına bir şekilde erişebiliyorsa, o zaman bu çeşitlilik yeni sorunlara üretken bir şekilde yaklaşma yeteneğini ateşleyebilir, diye düşündü. Başka bir deyişle, yalnızca Penrose bulmacalarını değil, daha geniş kapsamlı herhangi bir satranç problemini çözmeyi genelleştirebilir.

Grubu bunu öğrenmeye karar verdi. Bağımsız olarak ve çeşitli durumlarda eğitilen birden fazla yapay zeka sistemini içeren AlphaZero'nun yeni, çeşitlendirilmiş versiyonunu oluşturdular. Zahavy, genel sistemi yöneten algoritmanın bir tür sanal çöpçatan gibi davrandığını söyledi: Bu algoritma, hamle yapma zamanı geldiğinde hangi ajanın başarılı olma şansının en yüksek olduğunu belirlemek için tasarlandı. Kendisi ve meslektaşları aynı zamanda bir "çeşitlilik bonusu" da kodladılar; bu, sistem geniş bir seçenek yelpazesinden stratejiler çektiğinde verilecek bir ödül.

Yeni sistem kendi oyunlarını oynayacak şekilde serbest bırakıldığında ekip çok fazla çeşitlilik gözlemledi. Çeşitliliğe sahip yapay zeka oyuncusu, ne zaman ve nerede rok atılacağı gibi belirli stratejiler hakkında yeni, etkili açılışlar ve yeni ama sağlam kararlar denedi. Çoğu maçta orijinal AlphaZero'yu yendi. Ekip ayrıca, çeşitlendirilmiş versiyonun orijinalinden iki kat daha fazla zorlu bulmacayı çözebildiğini ve toplam Penrose bulmaca kataloğunun yarısından fazlasını çözebildiğini buldu.

Cully, "Burada amaç, herhangi bir oyuncuyu yenebilecek tek bir çözüm veya tek bir politika bulmak yerine, yaratıcı çeşitlilik fikrini [kullanmasıdır]" dedi.

Zahavy, daha fazla ve farklı oynanan oyunlara erişim sayesinde çeşitlendirilmiş AlphaZero'nun, ortaya çıkan zorlu durumlar için daha fazla seçeneğe sahip olduğunu söyledi. "Eğer gördüğü oyun türlerini kontrol edebiliyorsanız, temel olarak nasıl genelleşeceğini de kontrol edersiniz" dedi. Bu tuhaf içsel ödüller (ve bunlarla ilişkili hamleler), çeşitli davranışlar için güçlü yönler haline gelebilir. Daha sonra sistem, farklı yaklaşımları değerlendirmeyi ve değer vermeyi öğrenebilir ve bunların en başarılı olduğu zamanı görebilir. "Bu ajan grubunun bu pozisyonlar üzerinde gerçekten bir anlaşmaya varabileceğini gördük."

Ve en önemlisi, sonuçları satrancın ötesine uzanıyor.

Gerçek Hayatta Yaratıcılık

Cully, çeşitlendirilmiş bir yaklaşımın yalnızca takviyeli öğrenmeye dayalı olanlara değil, her türlü yapay zeka sistemine yardımcı olabileceğini söyledi. Fiziksel sistemleri eğitmek için uzun süredir çeşitliliği kullanıyor. altı bacaklı robot Kasıtlı olarak "yaralamadan" önce çeşitli hareket türlerini keşfetmesine izin verildi ve daha önce geliştirdiği bazı teknikleri kullanarak hareket etmeye devam etmesine izin verildi. "Şu ana kadar bulduğumuz tüm önceki çözümlerden farklı çözümler bulmaya çalışıyorduk." Son zamanlarda, gelecek vaat eden yeni ilaç adaylarını belirlemek ve etkili hisse senedi ticareti stratejileri geliştirmek amacıyla çeşitliliği kullanmak için araştırmacılarla da işbirliği yapıyor.

Cully, "Amaç, her çözümün bir sonrakinden çok farklı olduğu, potansiyel olarak binlerce farklı çözümden oluşan geniş bir koleksiyon oluşturmaktır" dedi. Yani - tıpkı farklı satranç oyuncularının yapmayı öğrendiği gibi - her tür problem için genel sistem mümkün olan en iyi çözümü seçebiliyordu. Kendisi, Zahavy'nin yapay zeka sisteminin "farklı stratejiler aramanın kalıpların dışında düşünmeye ve çözümler bulmaya nasıl yardımcı olduğunu" açıkça gösterdiğini söyledi.

Zahavy, yapay zeka sistemlerinin yaratıcı bir şekilde düşünebilmesi için araştırmacıların onlara daha fazla seçeneği değerlendirmeleri gerektiğini düşünüyor. Bu hipotez, insanlar ve makineler arasında ilginç bir bağlantı olduğunu öne sürüyor: Belki zeka sadece bir hesaplama gücü meselesidir. Bir yapay zeka sistemi için yaratıcılık, yeterince geniş bir seçenek büfesini dikkate alma ve arasından seçim yapma becerisine indirgenebilir. Sistem çeşitli optimal stratejileri seçtiği için ödüller kazandıkça, bu tür yaratıcı problem çözme pekiştirilir ve güçlenir. Sonuçta teoride, insanlarda yaratıcı olduğu kabul edilen her türlü problem çözme stratejisini taklit edebilir. Yaratıcılık bir hesaplama sorunu haline gelecektir.

Liemhetcharat, çeşitlendirilmiş bir yapay zeka sisteminin, makine öğrenimindeki daha geniş genelleme sorununu tamamen çözme ihtimalinin düşük olduğunu belirtti. Ama bu doğru yönde atılmış bir adım. "Bu eksikliklerden birini hafifletiyor" dedi.

Daha pratik olarak Zahavy'nin sonuçları, işbirliğinin insanlar arasında zor görevlerde daha iyi performansa nasıl yol açabileceğini gösteren son çabalarla örtüşüyor. Billboard 100 listesindeki hit şarkıların çoğu bireyler tarafından değil, örneğin şarkı sözü yazarlarından oluşan ekipler tarafından yazılmıştır. Ve hala geliştirilecek yer var. Çeşitli yaklaşım şu anda hesaplama açısından pahalıdır, çünkü tipik bir sistemden çok daha fazla olasılığı dikkate alması gerekir. Zahavy ayrıca çeşitlendirilmiş AlphaZero'nun bile tüm olasılık yelpazesini yakaladığı konusunda ikna olmuş değil.

"Hala farklı çözümler bulmak için yer olduğunu düşünüyorum" dedi. "Dünyadaki tüm veriler göz önüne alındığında, her sorunun [yalnızca] tek bir cevabının olduğu bana açık değil."

Kuantum izleyicilerimize daha iyi hizmet verebilmek için bir dizi anket yürütüyor. Bizimkini al bilgisayar bilimi okuyucu anketi ve ücretsiz kazanmak için girileceksiniz Kuantum mal.

spot_img

En Son İstihbarat

spot_img