Zephyrnet Logosu

Büyük Dil Modellerinde Yaratıcılığı Keşfetmek: GPT-2'den GPT-4'e

Tarih:

büyük dil modelleri

Midjourney tarafından tasavvur edilen yaratıcılık. yazar tarafından oluşturuldu

Bu makale ilk olarak yazarın sitesinde yayınlanmıştır. blog ve yazarın izniyle TOPBOTS'a yeniden yayınlandı.

Son haftalarda, insanlar çeşitli yaratıcı içerikler oluşturmak için büyük dil modelleri (LLM'ler) kullandılar. kitaplarflaş kurgurap savaşları, ve müzik akorları. Ancak bu modellerde yaratıcı sürecin seviyesini daha geniş bir şekilde ölçmek mümkün müdür?

İnsan yaratıcılığı uzun zamandır psikologları ve araştırmacıları büyülemiştir. 1950'li Yıllardan Başlayanlar, araştırmacılar, bireylerin yaratıcı performanslarını ve potansiyellerini karşılaştırmak için bir dizi test oluşturdu. Tek başına hiçbir test yaratıcılığı tam olarak yakalayamazken, bu testler yaratıcılığın farklı yönlerini ölçmeye ve sayısallaştırmaya çalıştı.

Bu makalede, iki tür yaratıcılığı ölçen testlerde 2019'dan 2023'e kadar GPT modellerinin performansını analiz ediyorum: yakınsak (tek, doğru bir çözüm var) ve ıraksak (açık uçlu; birden çok çözüm olabilir) [1]. Testler şunları içerir:

Bu analizler aracılığıyla, önceki GPT-2 modelinden en yeni GPT-4 modeline kadar performanstaki değişime odaklanıyorum. Bu modellerin davranışını anlamak için hem öznel hem de nesnel bir mercek kullanıyorum. Genel olarak, sonraki modeller tüm yaratıcılık görevlerinde daha iyi performans gösterme eğilimindedir, ancak testin "doğru" bir cevaba sahip olduğu birkaç istisna buluyorum, daha basit GPT-2 modeli yeni GPT4 modelinden daha iyi performans gösteriyor. Mümkün olduğunda, GPT modellerini aynı yaratıcılık testlerindeki insan performanslarıyla karşılaştırırım.

Not: Bu deneyler, modellerin ne kadar yaratıcı olduğunu ölçmeyi değil, model nesillerinde var olan yaratıcı sürecin seviyesini ölçmeyi amaçlar. GPT modellerinin veya genel olarak LLM'lerin, insanlarda olduğu gibi yaratıcı düşünceye sahip olduğunu iddia etmiyorum. Bunun yerine, modellerin yaratıcı süreçlerin belirli ölçümlerine nasıl tepki verdiğini göstermeyi hedefliyorum.

GPT Modellerinde İlerleme

Üretken Önceden Eğitilmiş Dönüştürücü (GPT) modelleri, önceki belirteçlere dayalı olarak bir sonraki belirteci tahmin etmek için İnternet'in geniş bölümlerinde eğitilmiş dil modelleridir. En son ChatGPT, son birkaç ayda halkın dikkatini çekerken, OpenAI'nin GPT modelleri (ve modellerin arkasındaki teknolojiler) birkaç yıldır piyasada.

Bu makaledeki tüm deneylerde, aksi belirtilmediği sürece, nesillerindeki rastgeleliği hesaba katmak için her bir GPT modelini benzersiz bilgi istemi başına beş kez aradım.

1. Remote Associates Testi: İlgisiz Kelimeleri Bağlama

Remote Associates Testi (RAT), Martha Mednick tarafından 1962'de geliştirilen bir yaratıcılık testidir.2]. Bu test yakınsak düşünmeyi ölçer, yani her sorunun bir “doğru” yanıtı vardır.

Görünüşte alakasız üç kelime verildiğinde, sınava giren kişinin üç kelimeyi birleştiren dördüncü bir kelime bulması gerekir. Örneğin, "dream", "break" ve "light" kelimeleri "day" (daydream, daybreak, daylight) kelimesiyle ilişkilendirilebilir. "Duygu", "nezaket" ve "yer" kelimeleri "ortak" kelimesiyle birbirine bağlanabilir.

Üçüz kelimesini şuradan topladım: Remote Associates Testi web sitesiToplam 312 soru vardı. Her sorunun zorluğu, Çok Kolay'dan Çok Zor'a kadar bir ölçekte derecelendirildi.

büyük dil modelleri
Rastgele İlişkilendirme Testi sorularının dökümü test web sitesi.

Her model ve her kelime üçlüsü için aşağıdaki bilgi istemi şablonunu kullandım. Rastgeleliği hesaba katmak için her modeli 5 kez aradım.

Size üç kelime veriliyor. İlk üç kelimenin her biri ile bir şekilde ilişkili olan dördüncü bir kelime düşünün. Önce cevabı (“Cevap”) verin, ardından gerekçenizi (“Sebep”) açıklayın.

Size üç kelime veriliyor. İlk üç kelimenin her biri ile bir şekilde ilişkili olan dördüncü bir kelime düşünün. Önce cevabı ("Cevap") verin, ardından gerekçenizi ("Sebep") açıklayın.Kelimeler: {Kelime1}, {Kelime2}, {Kelime3}

Daha yeni GPT modelleri, uzaktan ilişkilendirmede daha yüksek puan alır

Her GPT modelinin doğru yanıt ürettiği soruların genel yüzdesini hesapladım. Model ne kadar yeniyse, o kadar çok doğru yanıt vermesi şaşırtıcı gelmeyebilir.

Model performansının soru zorluk düzeyine göre dökümü benzer bir eğilim gösterdi: yeni GPT modelleri, her zorluk düzeyinde eski modellerden daha iyi performans gösterdi. Daha yeni GPT modelleri, zor sorularda eski modellerden daha iyi performans gösterse de, iyileştirme daha kolay sorulardan daha az şiddetliydi. Bu şu demek GPT-4 bile zor sorularla mücadele etti.

Remote Associates Test web sitesine göre, "Sıradan bir kişi, kolay olarak işaretlenen öğelerin çoğunu, orta soruların yaklaşık yarısını ve zor olanların birkaçını çözebilir." Web sitesinde paylaşılan resmi bir istatistik yoktu, ancak hızlı bir bakış, GPT-4'ün gerçekten de orta düzeydekilerin yaklaşık yarısını ve zor olanlardan birkaçını çözdüğünü ve onu insan düzeyiyle yaklaşık olarak karşılaştırılabilir tek model yaptığını gösterecekti. Diğer GPT modelleri, insan performansından daha kötüydü.

Bu kapsamlı eğitim içeriği sizin için yararlıysa, AI posta listemize abone olun yeni materyal çıkardığımızda uyarılmak. 

Birkaç istisna: GPT-2 doğru anladığında, ancak GPT-4 yanlış anladığında

Sık sık gerçekleşmese de, 2'daki daha ilkel GPT-2019 modelinin doğru yanıtı üretebildiği ancak 4'teki GPT-2023 modelinin doğru yanıtı üretemediği birkaç soru vardı. Aslında, böyle 8 soru vardı. (Tam liste, makalenin sonundaki Ek'te gösterilmektedir).

kolay bir soru

  • kelimeler: yazlık / tuğla / kek
  • GPT-2: “peynir” [doğru cevap]
  • GPT-4: "katman"

Ortalama bir soru

  • Kelimeler: kedi / numara / telefon
  • GPT-2: "ara"
  • GPT-4: "çevir"

zor bir soru

  • Kelimeler: aracılığıyla / disk / yol
  • GPT-2: "sür" [doğru]
  • GPT-4: "daire"

çok zor bir soru

  • kelimeler: arazi / el / ev
  • GPT-2: "çiftlik" [doğru]
  • GPT-4: "özellik"

Tüm bu sorular için GPT-4'ün yanıtlarının şu şekilde olduğuna dikkat edin: değil mantıksız Aslında, doğru cevabı önceden bilmeden, GPT-4'ün cevabının muhtemelen üç kelimeyi birbirine bağlayabileceğini varsayabilirsiniz. diye düşünüyorsanız, yanılmıyorsunuz. Buna bir sonraki bölümde değineceğim.

GPT-4 yanlış mıydı yoksa alışılmışın dışında mı düşünüyordu?

GPT-4, soruların yarısından fazlasını yanlış yanıtladı, ancak belki de geçerli bir nedeni vardır. GPT-4'ten cevaplarının her birini açıklamasını istedim. Sonra yanlış yaptığı “Çok Zor” sorulardan birkaçının açıklamalarına baktım.

Kelimeler: sanatçı / kapak / rota

  • Doğru cevap: "kaçış"
  • GPT-4 yanıtı: “harita”
"Sanatçı" kelimesi akla bir şey yaratma fikrini, hatta belki de bir şeyin görsel temsilini getirebilir. Haritalar, oluşturmak için bir dereceye kadar sanatsal beceri gerektiren yaygın bir görsel temsil biçimidir. "Kapak" kelimesi, bir şeyi açma veya bir şeyi varlığa getirme eylemine atıfta bulunabilir. Harita, genellikle yeni bölgede gezinmek veya bir eylem planı çizmek için kullanılan bir tür taslak veya plandır. "Rota" kelimesi, bir harita üzerinde çizilebilen ve izlenebilen yön ve hareket ile ilgilidir. Bir harita, seyahat ederken izleyeceğiniz en iyi rotayı belirlemenize yardımcı olabilir ve ayrıca geçmişte başkalarının izlediği rotalar hakkında bilgi verebilir. Sonuç olarak, "Harita", sanatsal yaratım, planlama ve yön ile hareket ve navigasyon fikirlerini özetlediği için, ilk üç kelimenin her birine çok iyi uyan bir kelime gibi görünüyor.

GPT-4'ün “harita”nın “artist / hatch/rota” ile ilişkilendirilmek için iyi bir kelime olduğuna dair açıklaması inandırıcıdır.

İşte başka bir örnek:

Kelimeler: çatal / karanlık / adam

  • Doğru cevap: "perde"
  • GPT-4 yanıtı: "gölge"
"Çatal" kelimesi, yol ayrımı gibi bölme veya dallanma ile ilişkilendirilebilir. Gölgeler, ışığın yokluğunu temsil ettikleri için bir tür bölünme olarak da görülebilir. "Karanlık" kelimesi, ışığın yokluğunu ifade eder. Gölgeler, ışık bir nesne tarafından engellendiğinde oluşur ve genellikle çevredeki alandan daha koyu görünebilir. "İnsan" kelimesi, kimlik veya bireysellik kavramıyla ilişkilendirilebilir. Gölgeler, şekli ve boyutu hakkında ipucu sağlayabildikleri için bir kişinin kimliğini temsil etmek için de kullanılabilir. Bu nedenle, "Gölge", bölünme, yokluk ve özdeşlik fikirlerini özetlediği için, ilk üç kelimenin her birine çok iyi uyan bir kelime gibi görünüyor.

Bu örnekler, Remote Associates Testinin ve genel olarak yakınsak yaratıcılık testlerinin - yani "doğru" yanıtın tek "doğru" yanıt olmayabileceği durumlardaki - tuzağı gösterir. Bu durumlarda, GPT-4 "yanlış" bir yanıt üretti, ancak yalnızca geleneksel "doğru" yanıtı karşılamadığı için.

Aslında, GPT-4'ten bir kelime üçlüsü için dördüncü bir kelime için birden çok seçenek için beyin fırtınası yapmasını istersem, bana ikna edici yanıtlarla birden çok seçenek sunabiliyor.

GPT-4, keyfi olarak oluşturulmuş üçlü sözcük grubuna yanıt verir

GPT modellerinin eğitim verilerinde yukarıdaki Remote Associates Test sorularından bazılarını görmüş olması mümkündür. GPT-4, keyfi olarak oluşturulmuş bir kelime üçlüsüne nasıl yanıt verirdi? Bu bölümde kendi “uzak ilişkilendirme” testimi oluşturuyorum ve çıktıları subjektif olarak değerlendiriyorum.

listesini aldım 10,000 en yaygın İngilizce kelime [3] Sonra bu listeden rastgele üç kelime seçtim ve GPT-4'ün bu kelimeleri birbirine bağlayan dördüncü bir kelime bulmasını sağladım. Üç kelimelik kombinasyonlardan bazıları oldukça tuhaf ve ilgisizdi, ancak GPT-4 her zaman bunları birbirine bağlamanın bir yolunu buldu. Okuyucuyu, GPT-4'ün nesillerini okumadan önce bunları denemeye teşvik ediyorum!

Sonraki birkaç örneği inceledikten sonra kararınızı verebilirsiniz — GPT-4 alışılmışın dışında mı düşünüyor? Yoksa sadece cevaplarını uyduruyor mu? (Makalenin sonundaki Ek'te daha uzun bir örnek listesi gösterilmektedir).

🇧🇷 Sağlık

Bu yanıt oldukça inandırıcı geldi. "Sağlık gözetimi" tanımının neredeyse kelimesi kelimesine kopyalanmasını ilginç buldum. Halk Sağlığı Sürveyansına Giriş konulu CDC web sitesi.

Halk sağlığı sürveyansı "halk sağlığı uygulamalarının planlanması, uygulanması ve değerlendirilmesi için gerekli olan sağlıkla ilgili verilerin sürekli, sistematik olarak toplanması, analizi ve yorumlanmasıdır." — Saha Epidemiyolojisi (CDC web sitesinden)

Kelimeler: diyet / gözetim / doğmuş Cevap: Sağlık Nedeni: 1. Diyet - Bir kişinin diyeti, genel refahını, enerji düzeylerini ve belirli hastalıklara yakalanma riskini etkileyebileceğinden, doğrudan sağlığıyla ilgilidir. 2. Gözetim - Sağlık denetimi, sağlık uygulamalarının planlanması, uygulanması ve değerlendirilmesi için gerekli olan verilerin sürekli, sistematik olarak toplanması, analizi ve yorumlanmasıdır. 3. Doğmak - Bir insan doğduğunda, gelişimi, büyümesi ve genel yaşam kalitesi üzerinde uzun süreli etkileri olabileceğinden sağlığı son derece önemlidir.

🍀 Yonca

Başlangıçta GPT-4'ün cevabına ikna oldum - aslında oldukça zekice geldi. Ta ki hızlı bir Google araması yapıp Trifolium duodecim'in gerçek olmadığını öğrenene kadar. Bu, LLM'lerin gerçekte doğru olmayan bir cevap oluşturduğu yaygın bir fenomen olan halüsinasyona bir örnektir.

Kelimeler: şanslı / tarla / on iki Cevap: Yonca Sebep: 1. Şanslı - Dört yapraklı yonca, iyi şans sembolü olarak kabul edilir. 2. Tarla - Yoncalar, tarlalarda büyüyen yaygın olarak bulunabilen bitkilerdir. 3. Oniki - "Trifolium duodecim" (On iki yapraklı yonca) olarak bilinen 12 yaprakçıklı bir yonca çeşidi vardır.

☕️Starbucks

Bu örnek benim en sevdiğim cevaptı, alışılmışın dışında düşünürken biraz zorlama gibi geldi. Ve biraz komikti (özellikle Patrick ile ilgili kısım).

Kelimeler: grande / bilişsel / patrick Yanıt: Starbucks Gerekçe: 1. Grande: Starbucks, orta büyüklükteki içeceklerinden birine atıfta bulunmak için "grande" terimini kullanır. 2. Bilişsel: Starbucks, insanların rahatlamak, ders çalışmak ve bilişsel işlev gerektiren faaliyetler olan çalışmak için gittikleri popüler bir yerdir. 3. Patrick: Grey's Anatomy adlı televizyon programında Dr. Derek Shepherd'ı canlandıran aktör Patrick Dempsey, kahve sevgisiyle tanınır ve "McDreamy" lakabıyla tanınır. Starbucks tanınmış bir kahve dükkanıdır, bu yüzden karakterinin Starbucks'a müdavimi olması mümkündür.

Bu örnekler ve analizler, tek bir doğru cevaba sahip yaratıcılık testlerinin sınırlı olabileceğini göstermektedir. Bu sınırlama, bu makalenin sonraki bölümlerinde incelenen diğer testlerde ele alınmaktadır.

2. Alternatif Kullanım Görevi: Sıradan Öğelerde Anlam Bulmak

Yaratıcılığı ölçmeye yönelik bir diğer popüler test, 1967'de JP Guilford tarafından oluşturulan Alternatif Kullanımlar Görevidir (AUT). var doğru cevap yok

Sınava giren kişiden, günlük bir nesne için mümkün olduğu kadar çok orijinal kullanım üretmesi istenir. Örneğin, bir "dizüstü bilgisayar" bir "plaka", "vücut kalkanı" veya "duvar sanatı" olarak kullanılabilir [4]. Bu teste verilen yanıtlar, orijinallik (kullanımların ne kadar farklı olduğu) ve esneklik (fikirlerin çeşitliliği) gibi metrikler açısından ölçülür. Bu testin amacı, bir kişinin sıradan bir nesne için kaç tane alışılmadık kullanım düşünebileceğini görmektir.

Ancak, sınırlı kaynaklarım nedeniyle, bu ölçütleri insan notlayıcılar olmadan oluşturma yeteneğim yoktu. Bu nedenle, bir yaratıcılık için vekil, Amsterdam Üniversitesi'nden araştırmacılar tarafından da kullanılmıştır. GPT-3'ün Yaratıcılığını (Alternatif Kullanımlar) Test Etme.

Bu yazıda, araştırmacılar hem insanlardan hem de GPT-3'ten (davinci-002) aşağıdaki ortak nesneler için alternatif kullanım durumları bulmalarını istediler: çatal, teneke kutu ve kitap. Yaratıcılığı ölçmek için bir vekil olarak, anlamsal mesafe nesne ile oluşturulan kullanım durumları arasında — yani, oluşturulan kullanım durumu sözcüğü orijinal nesneden ne kadar farklıdır?

İnsan yanıtlarını aldım gazetenin proje web sitesi İnsan performansı ile karşılaştırma için. Makalede kullanılan benzer bir istemi temel alarak GPT modelleri için aşağıdaki istemi kullandım.

Aşağıdaki öğe için insanlara zeki, sıra dışı, ilginç, sıra dışı, esprili, yenilikçi veya farklı gelebilecek 10 yaratıcı kullanım bulun: {öğe}

Yaratıcılık için vekil olarak yerleştirmeler arasındaki Kosinüs Mesafesi

Doğal dil işlemede anlamsal uzaklık (veya anlamsal benzerlik), kelimelerin benzer bağlamlarda ne sıklıkta birlikte kullanıldığına bağlı olarak, iki kelimenin ne kadar ilişkili olduğunu gösteren bir vekildir. Örneğin, "bilgisayar" ve "ekran" sözcükleri, genellikle aynı bağlamlarda kullanıldıkları için daha kısa bir anlamsal mesafeye sahip olabilirken, "bilgisayar" ve "mercimek" sözcükleri, farklı oldukları için daha büyük bir anlamsal mesafeye sahip olabilir. genellikle aynı bağlamlarda kullanılır.

İki kelimenin anlamsal uzaklığını hesaplamak için, araştırmacıların kullandığı yaklaşımın aynısını kullandım. yukarıda belirtilen kağıt. kullandım clean ('en_core_web_lg'), nesne (ör. "dizüstü bilgisayar") ve kullanım durumu sözcüğü (ör. "plaka") için sözcük yerleştirmelerini hesaplamak için bir doğal dil işleme kitaplığı. Daha sonra semantik mesafeyi hesaplamak için iki gömme arasındaki kosinüs mesafesini kullandım.

Alternatif Kullanımlar Görevi için, "daha yaratıcı" ile ilişkili daha büyük anlamsal mesafeler nesneler için kullanım durumları. Sonuçlar, üç nesne (çatal, teneke kutu ve kitap) için insan performansının güvenilir bir şekilde GPT-3'e göre daha yüksek kosinüs mesafeleri (ve dolayısıyla daha yüksek anlamsal farklılık) ile sonuçlandığını gösterdi. Bununla birlikte, GPT-3.5 ve/veya GPT-4'ün insan yaratıcılığı anlamsal mesafe puanlarıyla eşleştiği veya bunları aştığı durumlar vardı.

İnsanlar GPT-3'ten daha yaratıcı kullanım durumları bulma eğilimindeyken (yaratıcılık için bir vekil olarak kosinüs mesafesiyle hesaplanan anlamsal mesafeyi kullanarak), GPT-4 insan düzeyiyle daha eşitti. Yani GPT-4, orijinal öğeyle insan performansına benzer düzeyde daha büyük anlamsal mesafelere neden olan öğelerle yanıt verdi. Bununla birlikte, orijinallik, esneklik ve kullanışlılık gibi daha öznel kategorilere açıklama yapan ve karar veren gerçek insanlar olmadan, kosinüs mesafesini kullanan bu ölçüm, GPT modellerinin yaratıcı çıktılarının yalnızca küçük bir bölümünü ölçtüğü için sınırlıdır.

İnsan tarafından oluşturulan ve yapay zeka tarafından oluşturulan kullanım durumlarını ayırt edebiliyor musunuz?

Listelerden biri, bir teneke kutu için insanlar tarafından oluşturulan alternatif kullanım durumlarını, diğeri ise GPT-4 tarafından oluşturulan alternatif kullanım durumlarını gösterir. Farkı söyleyebilir misin? Cevap sonunda.

Liste 1: Teneke kutu için kullanımlar

  • bir ayna gibi
  • oyuncak yaratmak
  • sanat olarak
  • Andy Warhol'un bir hatırası olarak
  • kutudan klipsle anahtarlık olarak
  • takı olarak

Liste 2: Teneke kutu için kullanımlar

  • minyatür davul seti
  • ilginç saksı
  • doğaçlama çerez kesici
  • ev yapımı kamp sobası
  • tuhaf rüzgar çanları
  • minyatür bitki bahçesi

Bir sonraki bölümde yer alan bir sonraki test de ıraksak düşünmeyi ölçer.

3. Iraksak İlişkilendirme Görevi: On Kelime, Bağlantı Yok

Üçüncü yaratıcılık testi, yakın zamanda 2021'de bir grup araştırmacı tarafından oluşturulan Divergent Association Task'tır (DAT).5]. Bu test, birbirinden mümkün olduğunca farklı olan on ismin adlandırılmasını içerir. Bu test, adından da anlaşılacağı gibi, ıraksak ve aynı zamanda doğru cevapları yoktur.

Var Bu web sitesinde testin çevrimiçi versiyonu. Mümkün olduğu kadar ilgisiz on isimden oluşan bir liste oluşturmayı içerdiğinden, sadece birkaç dakikanızı alır. İşte web sitesinden aldığım sonuç:

DAT Puanı

Puan nasıl hesaplanır? Yazarlar süreçlerini anlatıyor okuyun. DAT puanı, yerleştirmeler ve kosinüs mesafesi kullanılarak hesaplanır. Puanı hesaplamak için süreçlerini uyarlıyorum [6]:

  1. Hesaplanmış Eldiven her kelime için gömme
  2. Her kelime çifti arasındaki kosinüs mesafesini hesaplayın
  3. Bu değerin ortalamasını alın

Bu süreç, Alternatif Kullanımlar Görevinde yaratıcılık proxy puanını hesaplamak için kullanılan yönteme benzer, tek fark kullanılan kelime yerleştirme modelidir.

Modeller arasında Diverjansın Karşılaştırılması

GPT modellerini yönlendirmek için kullandığım aşağıdaki istem, DAT web sitesi.

Lütfen kelimelerin tüm anlam ve kullanımlarında birbirinden mümkün olduğunca farklı 10 kelime giriniz. Kurallar - İngilizce'de yalnızca tek kelimeler. - Yalnızca isimler (örneğin, şeyler, nesneler, kavramlar). - Özel isim yok (örneğin, belirli kişi veya yer yok). - Özel kelime dağarcığı yok (örneğin, teknik terimler yok). - Sözcükleri kendi başınıza düşünün (örneğin, çevrenizdeki nesnelere sadece bakmayın).

GPT-2'nin ürettiği çıktılar anlamsız olduğu için aşağıdaki sonuçlara GPT-2'yi dahil etmedim. (Bunun bir örneğini makalenin sonundaki Ek'te görebilirsiniz).

Sonuçlar, DAT puanının her yeni model için arttığını göstermektedir. Bu, daha sonraki modellerin anlamsal olarak birbirinden mümkün olduğunca farklı 10 kelime üretmede daha iyi olduğu anlamına gelir.

Örneğin, GPT-3 tarafından oluşturulan aşağıdaki listenin puanı 0.36'dır:

alacakaranlık, gece, gün, şafak, sabah, öğleden sonra, akşam, gece yarısı, alacakaranlık

Öte yandan, GPT-4 tarafından oluşturulan aşağıdaki liste 0.95 puan aldı:

fil, mikroskop, sandcastle, galaksi, uyum, spatula, buzul, felsefe, tef, kuraklık

Göre DAT testini tanıtan makale, puanlar genellikle 65 ile 90 arasında, ortalama 75 ile 80 arasında değişiyordu. 95 puan çok yüksek kabul edildi.

Yukarıdaki şekilde not edilmesi gereken bir şey, GPT-4'ün hata çubuklarının GPT-3'ünkinden çok daha küçük olmasıdır. Bunun önemi, "sıcaklık" parametresini değiştirerek her bir GPT modelinin üretimindeki rastgelelik miktarını değiştirdiğim bir sonraki deneyde çok daha net hale geliyor.

Sıcaklık 0 ile 1 arasında bir değerdir, 0'a yakın değerler en öngörülebilir ve 1 en rastgele değerlerdir. 0.5 ile 0.9 arasındaki sıcaklık değerlerini 0.1'lik artışlarla denedim (Önceki deneylerde sıcaklığı varsayılan değer olan 0.7'de tuttum). Daha yüksek sıcaklık değerleri için daha fazla varyans ve daha düşük sıcaklıklar için daha fazla tutarlılık bekliyordum.

Ancak sonuçlar semantik uzaklık varyansı açısından sıcaklığın model kadar önemli olmadığını göstermiştir. GPT-3 için, sıcaklığa rağmen, 10 kelimelik her bir liste için DAT puanı büyük farklılıklar gösteriyordu. Öte yandan, GPT-4 için, sıcaklığa rağmen DAT puanı, çok az varyansla küçük bir aralıkta sıkı bir şekilde tutarlı kaldı.

Bunun sonuçları, üç GPT modeli tarafından oluşturulan gerçek metne baktığımda daha net hale geldi. GPT-4, nesillerinde GPT-3'ten çok daha az değişkendi. Bir bakıma, GPT-4'ün doğru cevabı olmaması gereken bir görev için "doğru cevabı" zaten bildiğini hissettim.

Tüm sıcaklık puanları için yanıtları toplayarak, her modele 10 kez 50 kelimelik bir liste oluşturdum. Ardından, 50 çalışmanın tamamında farklı kelimelerin ne kadar yaygın göründüğüne baktım. GPT-3 tarafından en sık üretilen kelimenin, 19'de 50 kez = %38 olarak görünen kitap olduğuna dikkat edin. Öte yandan, GPT-4 tarafından en çok üretilen kelime mikroskoptu. 48/50=zamanın %96'sı.

Bu, GPT-3'ün aslında kelime nesillerinde daha değişken olduğu iddiasını doğrularken, GPT-4'ün "çeşitli kelimeler" görevlerinde yüksek puan alacağını bildiği aynı kelimelerin birçoğunu tahmin ederek işini garantiye aldı. mikroskop, volkan, fil ve galaksi.

Bu bulgu, GPT-4'ün çeşitli sözcükler olarak gördüğü şeyleri üretmek için nasıl "kodu kırdığını" göstermektedir. Durum buysa, GPT-4'ün "bu belirli oyunu en iyi nasıl oynayacağımız" konusunda yerel bir optimuma ulaşmaktan çok daha yaratıcı olduğunu güvenle söyleyebilir miyim emin değilim.

Sonuç

Yaratıcı süreç farklı olsa da, GPT-3 ve diğer üretken LLM'lerin yanıtlarının insanlardan ayırt edilemediği bir gelecek hayal edebiliriz.
- itibaren 
GPT-3'ün Yaratıcılığını (Alternatif Kullanımlar) Test Etme

Sınırlı sayıda metin tabanlı testler kullanarak yaratıcılık gibi çok karmaşık ve çok yönlü bir şeyi doğru bir şekilde ölçmek zordur. gibi testler olmasına rağmen Visual Remote Associates Testi Görsel bir unsur ekleyerek bu sorunu çözmeye çalışsanız da, bu tür değerlendirmelerin doğasında var olan sınırlamalar vardır. "Doğru cevaba" sahip yakınsak testler (Uzaktan İlişkilendirme Testi gibi), her zaman en yaratıcı veya doğru çözümü ödüllendirmeyebilir. Öte yandan, belirli bir doğru yanıtı olmayan ıraksak testler (Uyumsuz İlişkilendirme Testi gibi), kusurlu olan ve önyargılar içerebilen kelime yerleştirmelerine dayanır.

Ayrıca, GPT modellerinin bu testlerdeki performansı, eğitim sırasında görevlere maruz kalmalarından etkilenebilir ve bu da potansiyel olarak verilerin çakışmasına neden olabilir. Örneğin, GPT-4'ün Diverjans İlişkilendirme Testindeki performansı, sözcüklerin tuhaf bir şekilde tekrarlandığını gösterdi; bu da, "doğru" yanıtlar hakkında önceden bilgi sahibi olabileceğini akla getiriyor. Geçmişte olduğu gibi alternatif test yöntemleri geliştirmek çok önemlidir. GPT-4'ün test verileri üzerinde eğitildiğine dair söylentiler, özellikle kodlama görevlerinde.

Bu sınırlamalara rağmen yaratıcılık testleri, büyük dil modellerinin performansını karşılaştırmak ve izlemek için değerli ölçütler olarak hizmet edebilir. Gelecekteki araştırma deneyleri, dilsel alanlarda GPT modellerinin yaratıcılığını ölçmek için bu makaledekileri diğer dillerde tekrarlayabilir. Bunu yaparak, yapay zeka tarafından oluşturulan içeriği daha kapsamlı bir şekilde anlayabilir ve bu gelişmiş dil modellerinin yeteneklerini ve sınırlamalarını daha fazla keşfedebiliriz.

Uzaktan İlişkilendirme Testi: GPT Modellerinin Doğru Cevaplanan Sorularının Karşılaştırılması

Modelin doğru yaptığı her soru için zorluk seviyesinin dökümüne bakabiliriz. GPT3, GPT3.5 ve GPT4'ün zor soruları yanıtlama becerisi açısından benzer olduğunu görebiliriz.

Uzak İlişkilendirmeler GPT-2 doğru, GPT-4 yanlış

Kelimeler: kedi / numara / telefon Düzey: Orta Cevap: GPT2'yi ara: GPT4'ü ara: çevir Sözcükler: arazi / el / ev Düzey: Çok Zor Cevap: çiftlik GPT2: çiftlik GPT4: mülk Sözcükler: su / kalem / soda Düzey: Bilinmeyen Cevap : çeşme GPT2: çeşme GPT4: sıvı Kelimeler: ölçü / solucan / video Seviye: Çok Kolay Cevap: bant GPT2: bant GPT4: uzunluk Kelimeler: yazlık / tuğla / kek Seviye: Çok Kolay Cevap: peynir GPT2: peynir GPT4: katman Kelimeler: geçiş / disk / yol Seviye: Zor Cevap: sürücü GPT2: sürücü GPT4: daire Kelimeler: kokarca / krallar / haşlanmış Seviye: Çok Kolay Cevap: lahana GPT2: lahana GPT4: koku Kelimeler: zıpla / öldür / mutluluk Seviye: Zor Cevap: sevinç GPT2: neşe GPT4: yükseklik

GPT-4'ün rastgele oluşturulmuş Uzaktan İlişkilendirme Testi sorularına verdiği yanıtlar

Rastgele oluşturulmuş birkaç Uzaktan İlişkilendirme Testi sorusu için GPT-4 tarafından oluşturulan çıktıları burada bulabilirsiniz.

Yüzükler

Bu biraz ayakkabı çekmiş gibi geldi. Aşk hayatınız veya başka bir şey hakkında çok yorgun hissediyorsanız, yüzüklerin “özellikle ilişkilerde komplikasyonların sembolü” olduğu kısmını satın alabilirim. Ama son kısım zorlama geliyor

kelimeler: komplikasyonlar | Satürn | damla
Cevap: Yüzükler
Nedeni:
1. Komplikasyonlar: Yüzükler, özellikle ilişkilerde, taahhüdü ve beraberinde gelen karmaşıklıkları temsil ettikleri için, komplikasyonların sembolü olabilir.
2. Satürn: Satürn, öncelikle buz parçacıklarından ve bazı kayalık molozlardan oluşan güzel ve göze çarpan halkalarıyla ünlüdür.
3. Damlalar: Bir halka, tam bir daire oluşturan metal veya plastik gibi bir malzeme damlası veya halkası olarak görülebilir.

Devrim. Monte kumarhane gerçekten de gerçek bir yer ve gerçekten de İkinci Dünya Savaşı sırasında bombalandı.

kelimeler: belfast | hareket | monte Cevap: Devrim Sebep: 1. Belfast, Kuzey İrlanda'da, İrlanda Cumhuriyet hareketi nedeniyle önemli siyasi ve sosyal değişimler yaşayan bir şehirdir. 2. Hareket, genellikle devrimlerin neden olduğu siyasi ve sosyal değişiklikleri tanımlayabilen genel bir terimdir. 3. Monte muhtemelen İtalya'da küresel bir devrim ve değişim zamanı olan XNUMX. Dünya Savaşı sırasında önemli bir savaşın meydana geldiği tarihi bir yer olan Monte Cassino'dan bahsediyor. Bu nedenle, "devrim" kelimesi, önemli bir değişimi ve altüst oluşu temsil ettiği için ilk üç kelimenin her biri ile ilişkilidir.

Yardım. Yardım merkezleri aracılığıyla “Southampton” şehrini “yardıma” bağlamanın ilginç bir yolu…

kelimeler: sağlar | asistan | güneydoğu
Cevap: Yardım
Nedeni:
1. Sağlar: "Yardım", bir görevin başarılı olmasını veya tamamlanmasını sağlayabilecek bir eylem olduğu için "sağlar" ile ilişkilidir.
2. Asistan: "Yardım", "asistan" ile ilgilidir çünkü bir asistan, çeşitli görev ve faaliyetlerde yardım sağlar.
3. Southampton: "Yardım", "Southampton" ile ilişkilidir, çünkü Southampton, topluluğa yardım sağlayan Southampton Gönüllü Hizmetleri gibi çeşitli yardım merkezleri ve hizmetleri bulunan İngiltere'deki bir şehirdir.

Internet. Sanırım argümanı oldukça doğru.

kelimeler: uruguay | erişilebilir | gereklilik
Cevap: İnternet
Sebep: Uruguay'ın, İnternet'i tüm vatandaşları için erişilebilir kılmayı, dijital içerme gerekliliğini yerine getirmeyi ve dijital uçurumu azaltmayı amaçlayan Plan Ceibal adlı bir hükümet girişimi var.

Dil. Belki biraz genel, ama sanırım işe yarıyor.

kelimeler: tazminat | atlas | önek
Cevap: Dil
Nedeni:
1. Telafi - Dilbilimde, telafi, kelimenin genel yapısını korumak için bir kelimenin bir kısmındaki ses değişikliğinin, kelimenin başka bir kısmındaki bir değişiklikle "telafi edildiği" bir olgudur.
2. Atlas - Bir atlas, genellikle belirli bir dilde etiketler ve açıklamalar içeren bir harita koleksiyonudur.
3. Önek - Önek, dil ve gramerde bir kavram olan farklı bir anlama sahip yeni bir kelime oluşturmak için bir kelimenin başına eklenen bir morfem veya dilsel bir öğedir.

Sağlık. Sağlık gözetimi kısmı biraz karanlık ama sanırım işe yarıyor.

kelimeler: diyet | gözetim | doğmak
Cevap: Sağlık
Nedeni:
1. Diyet - Bir kişinin diyeti, genel refahını, enerji düzeylerini ve belirli hastalıklara yakalanma riskini etkileyebileceğinden doğrudan sağlıklarıyla ilgilidir.
2. Gözetim - Sağlık denetimi, sağlık uygulamalarının planlanması, uygulanması ve değerlendirilmesi için gerekli olan verilerin sürekli, sistematik olarak toplanması, analizi ve yorumlanmasıdır.
3. Doğmak - Bir insan doğduğunda, gelişimi, büyümesi ve genel yaşam kalitesi üzerinde uzun süreli etkileri olabileceğinden sağlığı son derece önemlidir.

ERİK! Bu aslında oldukça komikti.

kelimeler: erik | rakamlar | Satın alma
cevap: muhasebeci
Sebep: Bir muhasebeci, Eric olarak adlandırılabilecek, rakamlarla (sayılarla) çalışan ve genellikle işletmeler için satın alma kararlarına dahil olan bir profesyoneldir.

Iraksak Birliktelik Testinde GPT-2 Çıktıları

GPT-2'yi Iraksak test analizlerinin dışında tuttum çünkü çıktısı tamamen anlamsızdı. İstemi olabildiğince basitleştirdiğimde bile çıktısı pek kullanışlı olmadı. Buraya bir örnek ekliyorum çünkü aslında oldukça komik olduklarını düşündüm.

Birbirinden olabildiğince farklı 10 kelime listeleyin: "Mutlu Noeller" "Ben robot değilim, biz robotlarız" "İyi ki hepimiz robotuz" "Ben sadece bir robotum" "Ben sadece bir robotum" "Ben sadece bir robotum" "Ben sadece bir robotum" "Ben bir robot değilim" "Ben sadece bir robotum" "Ben sadece bir robotum"

Referanslar

[1] Guilford, JP (1967). İnsan Zekasının Doğası.

[2] Mednick, SA ve Mednick, MT (1959,1962). Remote Associates Testi, kolej ve yetişkin formu.

[3] En yaygın 10,000 İngilizce kelime şu şekilde belirlendi: n gram frekans analizi of Google'ın Trilyonluk Word Corpus'u. Durdurulacak sözcükleri (örneğin, İngilizce'de "the", "and" ve "you" gibi yaygın sözcükler) kaldırmak için bu listeyi daha da filtreledim. Bundan daha fazla bilgi Depo.

[4] Bunu bir kez bir flört uygulamasına koydum ve ne yazık ki kimse bunun komik olduğunu düşünmedi.

[5] Olson, Jay A.; Hayır, Johnny; Chmoulevitch, Denis; Cropper, Simon J.; Webb, Margaret E. (22 Haziran 2021). “İlişkisiz kelimeleri adlandırmak yaratıcılığı öngörür”Ulusal Bilimler Akademisi Tutanakları118 (25): e2022340118. iki:10.1073 / pnas.2022340118PMC 8237676PMID 34140408

[6] Yazarlar, puanları hesaplamak için 7 kelimeden 10'sinin alt kümesini alır. 10 kelimenin hepsini tuttum. Ayrıca yazarlar 840B-GloVe yerleştirmelerini kullanırken, ben daha küçük 6B-GloVe yerleştirmelerini kullandım. GloVe yerleştirme sonuçlarımı resmi DAT puanıyla karşılaştırdım ve bu farklılıklara rağmen sonuçları karşılaştırılabilir buldum.

Bu makaleyi beğendiniz mi? Daha fazla AI araştırma güncellemesi için kaydolun.

Bunun gibi daha özet makaleler yayınladığımızda size haber vereceğiz.

spot_img

En Son İstihbarat

spot_img