Zephyrnet Logosu

Makine öğrenimine ileri görüşlü bir yaklaşım (videolu)

Tarih:

23 Kasım 2022 (Nanowerk Haberleri) Bir futbol sahasında kapışan iki takım hayal edin. Oyuncular bir hedefe ulaşmak için işbirliği yapabilir ve çıkarları çatışan diğer oyunculara karşı rekabet edebilir. Oyun böyle çalışır. oluşturma yapay zeka İnsanlar kadar etkili bir şekilde rekabet etmeyi ve işbirliği yapmayı öğrenebilen ajanlar, çetrefilli bir problem olmaya devam ediyor. Önemli bir zorluk, yapay zeka aracılarının, hepsi aynı anda öğrenirken diğer aracıların gelecekteki davranışlarını tahmin etmelerini sağlamaktır. Bu sorunun karmaşıklığından dolayı, mevcut yaklaşımlar miyop olma eğilimindedir; temsilciler, takım arkadaşlarının veya rakiplerinin sonraki birkaç hamlesini yalnızca tahmin edebilir, bu da uzun vadede düşük performansa yol açar.  futbol taktikleri MIT araştırmacıları, yapay zeka ajanlarının geleceği çok daha ileriye doğru düşünmesini sağlamak için, işbirlikçi veya rekabetçi AI ajanlarının uzun vadeli performansını artırabilecek bir teknik geliştirdiler. (Resim: Jose-Luis Olivares, MIT) MIT, MIT-IBM Watson AI Lab ve başka yerlerden araştırmacılar, AI ajanlarına ileri görüşlü bir bakış açısı sağlayan yeni bir yaklaşım geliştirdiler. Makine öğrenimi çerçeveleri, işbirlikçi veya rekabetçi yapay zeka temsilcilerinin, yalnızca sonraki birkaç adımda değil, zaman sonsuza yaklaşırken diğer aracıların ne yapacağını düşünmelerini sağlar. Ajanlar daha sonra diğer ajanların gelecekteki davranışlarını etkilemek ve optimal, uzun vadeli bir çözüme ulaşmak için davranışlarını buna göre uyarlar. Bu çerçeve, sık bir ormanda kayıp bir yürüyüşçüyü bulmak için birlikte çalışan bir grup otonom dron tarafından veya yoğun bir otoyolda ilerleyen diğer araçların gelecekteki hareketlerini tahmin ederek yolcuları güvende tutmaya çalışan kendi kendine giden arabalar tarafından kullanılabilir. "Yapay zeka ajanları işbirliği yaparken veya rekabet ederken en önemli olan şey, davranışlarının gelecekte bir noktada ne zaman birleştiğidir. Yol boyunca uzun vadede pek bir önemi olmayan pek çok geçici davranış vardır. MIT Bilgi ve Karar Sistemleri Laboratuvarı'nda (LIDS) yüksek lisans öğrencisi ve bir makalenin baş yazarı Dong-Ki Kim, "Bu birleşik davranışa ulaşmak, gerçekten önemsediğimiz şeydir ve artık bunu mümkün kılmak için matematiksel bir yöntemimiz var" diyor. bu çerçeveyi anlatıyor. Kıdemli yazar, Richard C. Maclaurin Havacılık ve Uzay Bilimleri Profesörü ve MIT-IBM Watson AI Lab üyesi Jonathan P. How'dur. Ortak yazarlar arasında MIT-IBM Watson AI Lab, IBM Research, Mila-Quebec Yapay Zeka Enstitüsü ve Oxford Üniversitesi'ndeki diğerleri yer alır. Araştırma, Nöral Bilgi İşleme Sistemleri Konferansında sunulacaktır (“Çok Aracılı Pekiştirmeli Öğrenmede Uzun Vadeli Davranışı Etkilemek”).

[Gömülü içerik]

Bu demo videoda, araştırmacıların makine öğrenme sistemi kullanılarak eğitilen kırmızı robot, rakibinin sürekli değişen stratejisinden yararlanarak daha etkili davranışlar öğrenerek yeşil robotu alt etmeyi başarıyor.

Daha fazla temsilci, daha fazla sorun

Araştırmacılar, çok aracılı pekiştirmeli öğrenme olarak bilinen bir soruna odaklandı. Takviyeli öğrenme, bir yapay zeka temsilcisinin deneme yanılma yoluyla öğrendiği bir makine öğrenimi biçimidir. Araştırmacılar aracıya, bir hedefe ulaşmasına yardımcı olan "iyi" davranışlar için bir ödül verir. Ajan, sonunda bir görevde uzman olana kadar davranışını bu ödülü en üst düzeye çıkarmak için uyarlar. Ancak birçok işbirlikçi veya rakip aracı aynı anda öğrendiğinde, işler giderek daha karmaşık hale gelir. Temsilciler, diğer aracıların gelecekteki adımlarını ve kendi davranışlarının diğerlerini nasıl etkilediğini düşündükçe, sorunu kısa sürede verimli bir şekilde çözmek için çok fazla hesaplama gücü gerektirir. Bu nedenle diğer yaklaşımlar yalnızca kısa vadeye odaklanır. "Yapay zekalar gerçekten oyunun sonunu düşünmek istiyor ama oyunun ne zaman biteceğini bilmiyorlar. Gelecekte uzak bir zamanda kazanabilmeleri için davranışlarını sonsuza uyarlamaya nasıl devam edeceklerini düşünmeleri gerekiyor. Makalemiz, esas olarak bir yapay zekanın sonsuzluk hakkında düşünmesini sağlayan yeni bir hedef öneriyor” diyor Kim. Ancak sonsuzluğu bir algoritmaya bağlamak imkansız olduğundan, araştırmacılar sistemlerini, ajanların davranışlarının denge olarak bilinen diğer ajanların davranışlarıyla birleşeceği gelecekteki bir noktaya odaklanacak şekilde tasarladılar. Bir denge noktası, ajanların uzun vadeli performansını belirler ve çoklu ajan senaryosunda çoklu dengeler bulunabilir. Bu nedenle, etkili bir ajan, diğer ajanların gelecekteki davranışlarını, ajanın bakış açısından arzu edilen bir dengeye ulaşacak şekilde aktif olarak etkiler. Tüm etmenler birbirini etkilerse, araştırmacıların "aktif denge" adını verdiği genel bir konsepte yakınsarlar. Geliştirdikleri ve FURTHER olarak bilinen makine öğrenimi çerçevesi (bu, aktif etkiyi ortalama ödülle TAM GÜÇLENDİRME anlamına gelir), temsilcilerin bu aktif dengeyi elde etmek için diğer aracılarla etkileşime girerken davranışlarını nasıl uyarlayacaklarını öğrenmelerini sağlar. FURTHER bunu iki makine öğrenimi modülü kullanarak yapar. İlki, bir çıkarım modülü, bir aracının diğer aracıların gelecekteki davranışlarını ve kullandıkları öğrenme algoritmalarını yalnızca önceki eylemlerine dayalı olarak tahmin etmesini sağlar. Bu bilgi, temsilcinin davranışını uyarlamak ve diğer aracıları ödülünü en üst düzeye çıkaracak şekilde etkilemek için kullandığı takviyeli öğrenme modülüne beslenir. “Zorluk, sonsuzluğu düşünmekti. Bunu sağlamak için pek çok farklı matematiksel araç kullanmamız ve pratikte işe yaraması için bazı varsayımlarda bulunmamız gerekti," diyor Kim.

Uzun vadede kazanmak

Yaklaşımlarını, diğer çok aracılı pekiştirmeli öğrenme çerçevelerine karşı, sumo tarzı dövüşen bir çift robot ve 25 kişilik iki ekibin karşı karşıya geldiği bir savaş da dahil olmak üzere birkaç farklı senaryoda test ettiler. Her iki durumda da FURTHER'ı kullanan AI aracıları oyunları daha sık kazandı. Yaklaşımları merkeziyetsiz olduğundan, yani temsilciler oyunları bağımsız olarak kazanmayı öğrendiğinden, ayrıca aracıları kontrol etmek için merkezi bir bilgisayar gerektiren diğer yöntemlerden daha ölçeklenebilir, diye açıklıyor Kim. Araştırmacılar, yaklaşımlarını test etmek için oyunlar kullandılar, ancak FURTHER, herhangi bir çok etmenli sorunun üstesinden gelmek için kullanılabilir. Örneğin, etkileşim halindeki birçok yetkinin zaman içinde değişen davranış ve ilgilere sahip olduğu durumlarda sağlam bir politika geliştirmeye çalışan ekonomistler tarafından uygulanabilir. Ekonomi, Kim'in çalışmaktan özellikle heyecan duyduğu bir uygulamadır. Ayrıca aktif denge kavramını daha derine inmek ve DAHA FAZLA çerçeveyi geliştirmeye devam etmek istiyor.
spot_img

En Son İstihbarat

spot_img