Microsoft ve Google'ın Yapay Zeka Modelleri SuperGLUE Dil Testinde İnsan Performansını Aştı

2019'un sonlarında Facebook, New York Üniversitesi (NYU), Washington Üniversitesi ve DeepMind'e bağlı araştırmacılar Süper yapıştırıcı, çeşitli dil görevlerinde araştırma ilerlemesini özetlemek için tasarlanmış yeni bir yapay zeka ölçütü. Bir yıl önce tanıtılan GLUE kıyaslamasını temel alan SuperGLUE, bir dizi daha zor dil anlama zorlukları, geliştirilmiş kaynaklar ve halka açık büyük afiş.

SuperGLUE piyasaya sürüldüğünde, liderlik tablosunda en iyi performans gösteren model ile insan performansı arasında neredeyse 20 puanlık bir boşluk vardı. Ancak Ocak ayı başlarından itibaren, biri Microsoft'tan DeBERTa ve diğeri Google'dan T5 + Meena adlı iki model insan taban çizgilerini aştı ve bunu yapan ilk model oldu.

NYU'nun veri bilimi merkezinde yardımcı doçent olan Sam Bowman, başarının, modellerin içgörüleri hedef görevlere uyarlamak için tariflerle etiketlenmemiş veri kümelerinden öğrendiği kendi kendini denetleyen öğrenme dahil olmak üzere makine öğrenimindeki yenilikleri yansıttığını söyledi. "Bu veri kümeleri, iki yıl önce ücretsiz olarak sunulan en zor denetlenen dil anlama görev veri kümelerini yansıtıyor" dedi. "SuperGLUE'nun, en azından kalan küçük bir marjın ötesinde, doğal dil işlemede daha fazla ilerlemeyi tespit edebileceğine inanmak için hiçbir neden yok."

Ancak SuperGLUE, mükemmel - ne de tam bir insan dili yeteneği testi değildir. Bir blog gönderisinde, DeBERTa'nın arkasındaki Microsoft ekibi, modellerinin "hiçbir şekilde" doğal dil anlayışının insan düzeyinde zekasına ulaşmadığını belirtti. Bunun, onları ve etkilerini ölçmek için yeni kriterlerin yanı sıra araştırma atılımları gerektireceğini söylüyorlar.

Süper yapıştırıcı

Araştırmacıların yazdığı gibi kâğıt SuperGLUE'yu tanıtan bu testlerin amacı, İngilizce için genel amaçlı dil anlama teknolojilerine yönelik ilerlemelerin basit, oynaması zor bir ölçüsüdür. Mevcut verilerden alınan sekiz dil anlama görevinden oluşur ve bir performans ölçütü ile birlikte bir analiz araç takımı içerir.

Görevler şunlardır:

Boolean Sorular (BoolQ) modellerin cevabı içeren bir Wikipedia makalesinden kısa bir bölümle ilgili bir soruya yanıt vermesini gerektirir. Sorular, onları Google Arama yoluyla gönderen Google kullanıcılarından gelir.
Taahhüt Bankası (CB) aşağıdakiler de dahil olmak üzere kaynaklardan alınan bir metin alıntısında yer alan hipotezleri tanımlayan görev modelleri Wall Street Journal ve hipotezin doğru olup olmadığının belirlenmesi.
Akla yatkın alternatiflerin seçimi (COPA) bloglardaki konular hakkında bir ön cümle ve modellerin olası iki seçenekten birinin nedenini veya sonucunu belirlemesi gereken fotoğrafla ilgili bir ansiklopedi sağlar.
Çok Cümle Okuma Anlama (MultiRC), her örneğin bir bağlam paragrafı, o paragrafla ilgili bir soru ve olası cevapların bir listesinden oluştuğu bir soru-cevap görevidir. Bir model, hangi yanıtların doğru ve yanlış olduğunu tahmin etmelidir.
Commonsense Reasoning Veri Kümesi (ReCoRD) ile Okuduğunu Anlama modelleri, maskelenmiş kelimeleri ve cümleleri CNN'den ve Daily Mail, aynı kelime veya tümceciklerin birden çok farklı biçimde ifade edilebildiği ve bunların tümü doğru kabul edilmektedir.
Metinsel Çalışmayı (RTE) Tanıma doğal dil modellerini, bir alıntı metninin gerçeğinin başka bir metinden alıntının ne zaman ortaya çıktığını belirlemek için zorlar.
Bağlam İçinde Kelime (WiC) modellere iki metin parçacığı ve çok anlamlı bir sözcük (yani, birden çok anlamı olan sözcük) sağlar ve bu sözcüklerin her iki cümlede de aynı anlamda kullanılıp kullanılmadığını belirlemelerini gerektirir.
Winograd Şema Mücadelesi (WSC) kurgu kitaplarından pasajlar verilen modellerin belirsiz zamirlerin öncülü hakkındaki çoktan seçmeli soruları yanıtlaması gereken bir görevdir. Turing Testinde bir iyileştirme olacak şekilde tasarlanmıştır.

SuperGLUE ayrıca, Winogender Şemaları ile modellerde cinsiyet önyargısını ölçmeye çalışır, cümle içindeki yalnızca bir zamirin cinsiyetine göre farklılık gösteren cümle çiftleri. Bununla birlikte, araştırmacılar, bu ölçümün yalnızca pozitif tahmin değeri sunması nedeniyle sınırlamaları olduğunu belirtiyor: Zayıf bir önyargı puanı, bir modelin cinsiyet yanlılığı sergilediğinin açık bir kanıtı olsa da, iyi bir puan, modelin tarafsız olduğu anlamına gelmez. Dahası, tüm cinsiyet veya sosyal önyargı türlerini içermiyor, bu da onu kaba bir önyargı ölçütü yapıyor.

Araştırmacılar, insan performansı temellerini oluşturmak için, WiC, MultiRC, RTE ve ReCoRD için mevcut literatürden ve Amazon'un Mechanical Turk platformu aracılığıyla işe alınan kalabalık çalışanı yorumlayıcılarından yararlandı. Saatte ortalama 23.75 dolar ödeyen her işçi, talimatlar ve bir SSS sayfası kullanarak seçilen test setlerinden 30 adede kadar numuneye açıklama eklemeden önce kısa bir eğitim aşamasını tamamladı.

Mimari iyileştirmeler

Google ekibi, modelinin SuperGLUE'daki rekor performansına yol açan iyileştirmeleri henüz detaylandırmadı, ancak DeBERTa'nın arkasındaki Microsoft araştırmacıları çalışmalarını bir blog yazısı bu sabah erken saatlerde yayınlandı. DeBERTa yeni değil - geçen yıl açık kaynaklıydı - ancak araştırmacılar 1.5 milyar parametreli (yani modelin tahmin yapmak için kullandığı dahili değişkenler) daha büyük bir versiyonu eğittiklerini söylüyorlar. Açık kaynak olarak piyasaya sürülecek ve Bing, Office, Dynamics ve Azure Bilişsel Hizmetler gibi ürünleri destekleyen Microsoft'un Turing doğal dil temsil modelinin bir sonraki sürümüne entegre edilecek.

DeBERTa, bir modele maskelenmiş kelimenin ne olması gerektiğini tahmin etmek için maskelenmiş bir “belirteci” çevreleyen kelimeleri kullanmasının öğretildiği bir boş doldurma görevi olan maskelenmiş dil modellemesi (MLM) yoluyla önceden eğitilmiştir. DeBERTa, MLM için bağlam sözcüklerinin hem içerik hem de konum bilgisini kullanır, öyle ki, örneğin "yeni alışveriş merkezinin yanında açılan yeni bir mağaza" cümlesindeki "mağaza" ve "alışveriş merkezi" ni tanıyabilir, farklı sözdizimsel rolleri oynar.

Diğer bazı modellerin aksine, DeBERTa kelimelerin dil modelleme sürecindeki mutlak konumlarını açıklar. Ayrıca, model içinde girdi verilerini dönüştüren ve kelimelerin göreceli konumlarına göre kelime-kelime bağımlılıklarının gücünü ölçen parametreleri hesaplar. Örneğin, DeBERTa, “derin” ve “öğrenme” sözcükleri arasındaki bağımlılığın, farklı cümlelerde ortaya çıktıklarından çok yan yana geldiklerinde çok daha güçlü olduğunu anlayacaktır.

DeBERTa ayrıca, eğitim verilerine yapılan küçük varyasyonlardan türetilen rakip örneklerden yararlanan bir teknik olan rakip eğitimden de yararlanmaktadır. Bu çelişkili örnekler, eğitim sürecinde modele beslenerek genelleştirilebilirliği geliştirilir.

Microsoft araştırmacıları, daha sonra, DeBERTa'nın, bileşimsel genelleme olarak bilinen bir kavram olan alt görevlerin veya temel problem çözme becerilerinin yeni görevlerine genelleme yapmasını nasıl sağlayacağını keşfetmeyi umuyor. İleriye giden bir yol, sözde kompozisyon yapılarını daha açık bir şekilde dahil etmek olabilir; bu, yapay zekayı sembolik akıl yürütmeyle birleştirmeyi, başka bir deyişle sembolleri ve ifadeleri matematiksel ve mantıksal kurallara göre değiştirmeyi gerektirebilir.

Microsoft araştırmacıları, "SuperGLUE'da insan performansını aşan DeBERTa, genel yapay zeka için önemli bir kilometre taşını işaret ediyor" diye yazdı. "[Ama DeBERTa'dan farklı olarak] insanlar, göreve özgü gösterimler olmadan veya çok az şeyle yeni bir görevi çözmek için farklı görevlerden öğrenilen bilgileri kullanma konusunda son derece başarılılar."

Yeni kriterler

Bowman'a göre, en azından yakın vadede SuperGLUE'nun halefi çıkmayacak. Ancak yapay zeka araştırma topluluğu içinde, özellikle dil alanında gelecekteki ölçütlerin yararlı olması için daha geniş etik, teknik ve toplumsal zorlukları hesaba katması gerektiği konusunda artan bir fikir birliği var.

Örneğin, bir dizi çalışma, popüler kıyaslamaların gerçek dünyadaki AI performansını tahmin etmede yetersiz bir iş çıkardığını gösteriyor. Yakın zamanda bir rapor doğal dil işleme modelleri tarafından verilen cevapların% 60 -% 70'inin kıyaslama eğitim setlerinde bir yere gömüldüğünü ve modellerin genellikle basitçe cevapları ezberlediğini gösterdiğini buldu. 3,000'den fazla yapay zeka makalesinin meta analizi olan başka bir çalışma, yapay zeka ve makine öğrenimi modellerini karşılaştırmak için kullanılan ölçümlerin tutarsız, düzensiz bir şekilde takip edildiğini ve özellikle bilgilendirici olmadığını buldu.

Sorunun bir kısmı, OpenAI'ler gibi dil modellerinin GPT 3, Google'ın T5 + Meena ve Microsoft'un DeBERTa'sı, genel web'den örnekleri içselleştirerek insan benzeri metin yazmayı öğreniyor. E-kitaplar, Wikipedia ve Reddit gibi sosyal medya platformları gibi kaynaklardan yararlanarak, cümleleri ve hatta bütün paragrafları tamamlamak için çıkarımlar yaparlar.

Sonuç olarak, dil modelleri genellikle bu kamuya açık verilerde kodlanmış önyargıları güçlendirir; eğitim verilerinin bir kısmı olağandışı bir şekilde aşağıdaki topluluklardan alınmamaktadır: yaygın cinsiyet, ırk ve dini önyargılar. AI araştırma şirketi OpenAI, bunun, kadın zamirlerinin yanına "yaramaz" veya "emilmiş" ve "terörizm" gibi kelimelerin yanına "İslam" gibi sözcüklerin yerleştirilmesine yol açabileceğini belirtiyor. Intel, MIT ve Kanadalı AI girişimi CIFAR araştırmacıları tarafından Nisan ayında yayınlananlar gibi diğer çalışmalar, en popüler modellerin bazılarında yüksek düzeyde basmakalıp önyargı bulmuştur. Google'ın BERT'si ve XLNet, OpenAI'nın GPT-2, ve Facebook'tan RoBERTa. Middlebury Uluslararası Araştırmalar Enstitüsü'ne göre bu önyargı, kötü niyetli aktörler tarafından yanlış bilgi, dezenformasyon ve “bireyleri aşırı sağcı aşırı sağcı ideolojilere ve davranışlara göre radikalleştiren” açık yalanları yayarak uyuşmazlığı kışkırtmak için kullanılabilir.

Mevcut dil ölçütlerinin çoğu bunu yakalayamıyor. SuperGLUE'nun tanıtılmasından bu yana geçen iki yıl içinde elde edilen bulgulardan motive olmuş, belki de gelecekte olanlar olabilir.

VentureBeat

VentureBeat'in misyonu, teknik karar vericilerin dönüştürücü teknoloji ve işlem hakkında bilgi edinmesi için dijital bir şehir meydanı olmaktır. Sitemiz, kuruluşlarınıza liderlik ederken size rehberlik edecek veri teknolojileri ve stratejiler hakkında önemli bilgiler sunar. Sizi topluluğumuzun bir üyesi olmaya, erişmeniz için davet ediyoruz:

ilgilendiğiniz konular hakkında güncel bilgiler,
bültenlerimiz
kapılı düşünce lideri içeriği ve Transform gibi değerli etkinliklerimize indirimli erişim
ağ özellikleri ve daha fazlası.

Üye ol

Üretken Veri Zekası

Microsoft ve Google'ın yapay zeka modelleri, SuperGLUE dil karşılaştırmasında insan performansını şimdiden geride bıraktı

Süper yapıştırıcı

Mimari iyileştirmeler

Yeni kriterler

VentureBeat

Londra Menkul Kıymetler Borsası NFT Yatırım Listelemelerini Tanıtacak – CryptoInfoNet

Wisconsin, Spot Bitcoin ETF'lerine Mega Yatırım Yapan İlk ABD Eyaleti Oldu

En Son İstihbarat

Kenson Investments, Müşterilerini Kripto Varlık Ortamında Özel Teknik Rehberlikle Güçlendiriyor

Degen Chain 50 Saatlik Kesintinin Ardından Tekrar Çevrimiçi – The Defiant

Kripto Analisti Bu Ayın En İyi Yapay Zeka Altcoin Yatırımlarını Paylaşıyor

İtalya ek Eurofighter almaya hazırlanıyor

Euro, karışık euro bölgesi verilerinin ardından sakin seyrediyor, sırada ABD TÜFE var - MarketPulse

Malezya, durdurulan Black Hawk kiralama sürecini gözden geçirmeyi planlıyor