Creativiteit onderzoeken in grote taalmodellen: van GPT-2 tot GPT-4

grote taalmodellen

Creativiteit zoals Midjourney voor ogen heeft. Gegenereerd door de auteur

Dit artikel is oorspronkelijk gepubliceerd op de auteur blog en opnieuw gepubliceerd naar TOPBOTS met toestemming van de auteur.

De afgelopen weken hebben mensen grote taalmodellen (LLM's) gebruikt om allerlei creatieve inhoud te genereren, zoals boeken, flash fictie, rapgevechten en muziek akkoorden. Maar is het mogelijk om het niveau van het creatieve proces breder te meten in deze modellen?

Menselijke creativiteit heeft psychologen en onderzoekers al lang gefascineerd. Beginnend in de jaren negentig, creëerden onderzoekers een reeks tests om de creatieve prestaties en het potentieel van individuen te vergelijken. Hoewel geen enkele test creativiteit volledig kan vastleggen, probeerden deze tests verschillende aspecten ervan te meten en te kwantificeren.

In dit artikel analyseer ik de prestaties van GPT-modellen van 2019 tot 2023 op tests die twee soorten creativiteit meten: convergent (er bestaat één enkele juiste oplossing) en divergent (open einde; er kunnen meerdere oplossingen zijn) [1]. De testen omvatten:

Door middel van deze analyses concentreer ik me op de verandering in prestaties van het eerdere GPT-2-model tot het nieuwste GPT-4-model. Ik gebruik zowel een subjectieve als een objectieve lens om het gedrag van deze modellen te begrijpen. Over het algemeen presteren de latere modellen beter op alle creativiteitstaken, hoewel ik een paar uitzonderingen vind waarbij, wanneer de test een "juist" antwoord heeft, het eenvoudigere GPT-2-model beter presteert dan het nieuwere GPT4-model. Waar mogelijk vergelijk ik de GPT-modellen met menselijke prestaties op dezelfde creativiteitstests.

Opmerking: deze experimenten zijn niet bedoeld om te meten hoe creatief de modellen zijn, maar eerder om het niveau van het creatieve proces dat aanwezig is in de modelgeneraties te meten. Ik beweer niet dat de GPT-modellen, of LLM's in het algemeen, op dezelfde manier creatief denken als mensen. Het is eerder mijn bedoeling om te laten zien hoe de modellen reageren op bepaalde maatstaven van creatieve processen.

Een progressie van GPT-modellen

Generative Pre-trained Transformer (GPT)-modellen zijn taalmodellen die op grote delen van internet zijn getraind om het volgende token te voorspellen op basis van eerdere tokens. Hoewel de recente ChatGPT de afgelopen maanden de aandacht van het publiek heeft getrokken, bestaan de GPT-modellen van OpenAI (en de technologieën achter de modellen) al een paar jaar.

Voor alle experimenten in dit artikel heb ik, tenzij anders vermeld, elk GPT-model vijf keer per unieke prompt aangeroepen om rekening te houden met willekeur in zijn generaties.

1. Remote Associates-test: niet-verwante woorden met elkaar verbinden

De Remote Associates Test (RAT) is een creativiteitstest ontwikkeld door Martha Mednick in 1962 [2]. Deze test meet convergent denken, wat betekent dat elke vraag heeft een "juist" antwoord.

Gegeven drie ogenschijnlijk niet-verwante woorden, moet de testpersoon een vierde woord vinden dat de drie woorden verbindt. De woorden 'droom', 'pauze' en 'licht' kunnen bijvoorbeeld worden verbonden door het woord 'dag' (dagdroom, aanbreken van de dag, daglicht). De woorden "zin", "beleefdheid" en "plaats" kunnen worden verbonden door het woord "algemeen".

Ik heb het woord drieling verzameld van de Remote Associates Test-website. Er waren in totaal 312 vragen. De moeilijkheidsgraad van elke vraag werd beoordeeld op een schaal van heel gemakkelijk tot heel moeilijk.

grote taalmodellen — Uitsplitsing van de Random Association Test-vragen uit de testwebsite.

Voor elk model en elk drietal woorden heb ik de volgende promptsjabloon gebruikt. Ik heb elk model 5 keer gebeld om rekening te houden met willekeur.

Je krijgt drie woorden. Bedenk een vierde woord dat op de een of andere manier verband houdt met elk van de eerste drie woorden. Geef eerst het antwoord ("Antwoord") en leg vervolgens uw redenering uit ("Reden").

Je krijgt drie woorden. Bedenk een vierde woord dat op de een of andere manier verband houdt met elk van de eerste drie woorden. Geef eerst het antwoord ("Answer") en leg dan je redenering uit ("Reden").Woorden: {Word1}, {Word2}, {Word3}

Nieuwere GPT-modellen scoren hoger op externe associatie

Ik heb het totale percentage vragen berekend waarvoor elk GPT-model een correct antwoord genereerde. Het zal geen verrassing zijn dat hoe nieuwer het model, hoe meer correcte antwoorden het genereerde.

Het uitsplitsen van modelprestaties naar moeilijkheidsgraad van de vraag liet een vergelijkbare trend zien: nieuwere GPT-modellen presteerden beter dan oudere modellen op elk moeilijkheidsniveau. En hoewel de nieuwere GPT-modellen beter presteerden dan de oudere bij moeilijke vragen, was de verbetering minder ingrijpend dan bij eenvoudigere vragen. Dit betekent dat zelfs GPT-4 worstelde met moeilijke vragen.

Volgens de Remote Associates Test-website: "Een doorsnee persoon kan de meeste items oplossen die als gemakkelijk zijn gemarkeerd, ongeveer de helft van de middelzware en enkele van de moeilijke." Er waren geen officiële statistieken op de website, maar een snelle blik zou aantonen dat GPT-4 inderdaad ongeveer de helft van de gemiddelde en een paar van de moeilijke oploste, waardoor het het enige model is dat ongeveer vergelijkbaar is met het menselijke niveau. De andere GPT-modellen waren slechter dan menselijke prestaties.

Als deze diepgaande educatieve inhoud nuttig voor u is, abonneer je op onze AI-mailinglijst om gewaarschuwd te worden wanneer we nieuw materiaal uitbrengen.

Een paar uitzonderingen: wanneer GPT-2 het goed doet, maar GPT-4 het fout heeft

Hoewel het niet vaak gebeurde, waren er een paar vragen waarop het meer rudimentaire GPT-2-model uit 2019 het juiste antwoord kon genereren, maar het GPT-4-model uit 2023 niet. In feite waren er 8 van dergelijke vragen. (De volledige lijst staat in de bijlage aan het einde van het artikel).

Een makkelijke vraag

Woorden: huisje / baksteen / cake
GPT-2: "kaas" [juist antwoord]
GPT-4: "laag"

Een middelmatige vraag

Woorden: kat / nummer / telefoon
GPT-2: "bellen"
GPT-4: "bellen"

Een moeilijke vraag

Woorden: door / schijf / weg
GPT-2: "rijden" [juist]
GPT-4: "cirkel"

Een heel moeilijke vraag

Woorden: land / hand / huis
GPT-2: "boerderij" [correct]
GPT-4: "eigendom"

Merk op dat voor al deze vragen de antwoorden van GPT-4 zijn niet onredelijk. Zonder van tevoren het juiste antwoord te kennen, zou je zelfs kunnen aannemen dat het antwoord van GPT-4 de drie woorden waarschijnlijk met elkaar verbindt. Als je dat denkt, heb je het niet mis. Ik zal dit in de volgende sectie behandelen.

Was GPT-4 verkeerd of dacht ik gewoon buiten de gebaande paden?

GPT-4 beantwoordde meer dan de helft van de vragen fout, maar misschien met een goede reden. Ik vroeg GPT-4 om elk van zijn antwoorden uit te leggen. Vervolgens bekeek ik de verklaringen voor een paar van de "Zeer moeilijke" vragen die fout waren.

Woorden: artiest / luik / route

Juiste antwoord: "ontsnappen"
GPT-4 antwoord: "kaart"

Het woord 'kunstenaar' zou kunnen denken aan het idee om iets te creëren, misschien zelfs een visuele weergave van iets. Kaarten zijn een veel voorkomende vorm van visuele representatie die een zekere mate van artistieke vaardigheid vereist om te creëren. Het woord "luik" zou kunnen verwijzen naar het openen van iets of het tot stand brengen van iets. Een kaart is een soort blauwdruk of plan, vaak gebruikt om door een nieuw territorium te navigeren of om een actieplan uit te stippelen. Het woord "route" is gerelateerd aan richting en beweging, die op een kaart kunnen worden uitgezet en gevolgd. Een kaart kan u helpen bij het bepalen van de beste route om te reizen en kan ook informatie geven over de routes die anderen in het verleden hebben genomen. Al met al lijkt 'kaart' een woord dat goed past bij elk van de drie beginwoorden, aangezien het de ideeën omvat van artistieke creatie, planning en richting, en beweging en navigatie.

De uitleg van GPT-4 waarom "kaart" een goed woord is om te associëren met "artiest / luik / route" is overtuigend.

Hier is nog een voorbeeld:

Woorden: vork / donker / man

Juiste antwoord: "pitch"
GPT-4 antwoord: "schaduw"

Het woord "vork" kan worden geassocieerd met deling of vertakking, zoals een splitsing in de weg. Schaduwen kunnen ook worden gezien als een soort scheiding, omdat ze de afwezigheid van licht vertegenwoordigen. Het woord "donker" verwijst naar de afwezigheid van licht. Schaduwen ontstaan wanneer licht wordt geblokkeerd door een object en kunnen vaak donkerder lijken dan de omgeving. Het woord "man" kan worden geassocieerd met het concept van identiteit of individualiteit. Schaduwen kunnen ook worden gebruikt om de identiteit van een persoon weer te geven, omdat ze aanwijzingen kunnen geven over hun vorm en grootte. Daarom lijkt 'Schaduw' een woord te zijn dat goed past bij elk van de eerste drie woorden, aangezien het de ideeën van verdeeldheid, afwezigheid en identiteit omvat.

Deze voorbeelden tonen de valkuil van de Remote Associates Test, en van convergente creativiteitstests in het algemeen, dat wil zeggen, wanneer het "juiste" antwoord niet het enige "juiste" antwoord is. In deze gevallen genereerde GPT-4 een antwoord dat "fout" was, maar alleen omdat het niet voldeed aan het conventionele "juiste" antwoord.

Als ik GPT-4 vraag om te brainstormen over meerdere opties voor een vierde woord voor een drietal woorden, kan het me zelfs meerdere opties geven met overtuigende antwoorden.

GPT-4 beantwoordt willekeurig gegenereerde drietallen woorden

Het is mogelijk dat de GPT-modellen enkele van de bovenstaande Remote Associates-testvragen in hun trainingsgegevens hebben gezien. Hoe zou GPT-4 reageren op een willekeurig gegenereerd drietal woorden? In deze sectie construeer ik mijn eigen "externe associatie" -test en evalueer ik de outputs subjectief.

Ik nam een lijst van de 10,000 meest voorkomende Engelse woorden [3] Vervolgens nam ik willekeurig drie woorden uit deze lijst en liet GPT-4 een vierde woord leveren om deze woorden aan elkaar te koppelen. Sommige combinaties van drie woorden waren nogal vreemd en hadden niets met elkaar te maken, maar GPT-4 vond altijd een manier om ze met elkaar te verbinden. Ik moedig de lezer aan om deze eerst te proberen voordat hij de generaties van GPT-4 gaat lezen!

Na het bekijken van de volgende paar voorbeelden, kunt u uw beslissing nemen: denkt GPT-4 buiten de gebaande paden? Of is het gewoon schoenlepel zijn antwoorden? (Een langere lijst met voorbeelden vindt u in de bijlage aan het einde van het artikel).

️ Gezondheid

Deze reactie las als behoorlijk overtuigend. Ik vond het interessant dat de definitie voor "gezondheidstoezicht" bijna letterlijk overgenomen was uit de CDC-website over Inleiding tot toezicht op de volksgezondheid.

Volksgezondheidstoezicht is "de voortdurende, systematische verzameling, analyse en interpretatie van gezondheidsgerelateerde gegevens die essentieel zijn voor de planning, implementatie en evaluatie van de volksgezondheidspraktijk." — Veldepidemiologie (van de CDC-website)

Woorden: dieet / toezicht / geboren Antwoord: Gezondheid Reden: 1. Dieet - Het dieet van een persoon is direct gerelateerd aan zijn gezondheid, omdat het zijn algehele welzijn, energieniveaus en risico op bepaalde ziekten kan beïnvloeden. 2. Surveillance - Gezondheidssurveillance is de voortdurende, systematische verzameling, analyse en interpretatie van gegevens die essentieel zijn voor de planning, implementatie en evaluatie van gezondheidspraktijken. 3. Geboren - Wanneer een persoon wordt geboren, is zijn gezondheid van het grootste belang, omdat dit langdurige gevolgen kan hebben voor zijn ontwikkeling, groei en algehele kwaliteit van leven.

🍀 Klavers

Ik was aanvankelijk overtuigd door het antwoord van GPT-4 - het voelde zelfs best slim aan. Dat is totdat ik een snelle Google-zoekopdracht deed en ontdekte dat Trifolium duodecim niet echt is. Dit is een voorbeeld van een hallucinatie, een veel voorkomend verschijnsel waarbij LLM's een antwoord verzinnen dat feitelijk niet correct is.

Woorden: geluk / veld / twaalf Antwoord: Klaver Reden: 1. Geluk - Een klavertje vier wordt beschouwd als een symbool van geluk. 2. Veld - Klavers zijn planten die vaak in velden groeien. 3. Twaalf - Er is een variëteit aan klaver bekend als "Trifolium duodecim" (klavertje twaalf), die 12 blaadjes heeft.

☕️Starbucks

Dit voorbeeld was mijn favoriet, het antwoord, terwijl ik out of the box dacht, voelde als een beetje moeilijk. En het was een beetje grappig (vooral het deel over Patrick).

Woorden: grande / cognitief / patrick Antwoord: Starbucks Reden: 1. Grande: Starbucks gebruikt de term "grande" om te verwijzen naar een van hun middelgrote drankjes. 2. Cognitief: Starbucks is een populaire plek voor mensen om te ontspannen, studeren en werken, allemaal activiteiten die een cognitieve functie vereisen. 3. Patrick: Patrick Dempsey, de acteur die Dr. Derek Shepherd speelde in de tv-show Grey's Anatomy, staat bekend om zijn liefde voor koffie en kreeg de bijnaam 'McDreamy'. Starbucks is een bekende coffeeshop, dus het is mogelijk dat zijn karakter Starbucks zou hebben bezocht.

Deze voorbeelden en analyses illustreren dat creativiteitstests met één juist antwoord beperkt kunnen zijn. Deze beperking wordt behandeld in de andere tests die in dit artikel in de volgende secties worden onderzocht.

2. Alternatief gebruik Taak: Betekenis vinden in gewone items

Een andere populaire test voor het meten van creativiteit is de Alternative Uses Task (AUT), die in 1967 is gemaakt door JP Guilford. In tegenstelling tot de Remote Associations Test meet deze test divergerend denken, wat inhoudt dat er bestaat geen goed antwoord.

De testpersoon wordt gevraagd om zoveel mogelijk originele toepassingen voor een alledaags object te bedenken. Een “laptop” kan bijvoorbeeld gebruikt worden als “bord”, als “lichaamsschild” of als “muurkunst” [4]. Reacties op deze test worden gemeten in termen van metrieken zoals originaliteit (hoe verschillend de toepassingen zijn) en flexibiliteit (het assortiment van ideeën). Het doel van deze test is om te zien hoeveel onconventionele toepassingen een persoon kan bedenken voor een gewoon object.

Vanwege mijn beperkte middelen was ik echter niet in staat om deze metingen te genereren zonder menselijke annotators. Daarom gebruikte ik een proxy voor creativiteit, die ook werd gebruikt door onderzoekers van de Universiteit van Amsterdam in De creativiteit van GPT-3 op de proef stellen (alternatieve toepassingen)..

In dit artikel vroegen de onderzoekers zowel mensen als GPT-3 (davinci-002) om alternatieve use-cases te bedenken voor de volgende veelvoorkomende objecten: vork, blik en boek. Als maatstaf voor het meten van creativiteit maten ze de semantische afstand tussen het object en de gegenereerde use-cases - dat wil zeggen, hoe verschillend is het gegenereerde use-case-woord van het oorspronkelijke object?

Ik heb de menselijke reacties verkregen van de projectwebsite van de krant ter vergelijking met menselijke prestaties. Ik heb de volgende prompt gebruikt voor de GPT-modellen, gebaseerd op een vergelijkbare prompt die in de paper wordt gebruikt.

Bedenk 10 creatieve toepassingen voor het volgende item dat mensen als slim, ongebruikelijk, interessant, ongebruikelijk, humoristisch, innovatief of anders zou kunnen overkomen: {item}

Cosinus Afstand tussen inbeddingen als proxy voor creativiteit

Bij natuurlijke taalverwerking, semantische afstand (of semantische gelijkenis) is een proxy voor hoe verwant twee woorden zijn, gebaseerd op hoe vaak woorden samen worden gebruikt in vergelijkbare contexten. De woorden "computer" en "scherm" kunnen bijvoorbeeld een kortere semantische afstand hebben, omdat ze vaak in dezelfde context worden gebruikt, terwijl de woorden "computer" en "linzen" een grotere semantische afstand kunnen hebben, omdat ze dat niet zijn vaak in dezelfde context gebruikt.

Om de semantische afstand van twee woorden te berekenen, heb ik dezelfde aanpak gebruikt als de onderzoekers in het hierboven genoemde papier. Ik gebruikte spacy (`en_core_web_lg`), een bibliotheek voor natuurlijke taalverwerking, om woordinbeddingen voor het object (bijv. "laptop") en het use case-woord (bijv. "plaat") te berekenen. Vervolgens gebruikte ik de cosinusafstand tussen de twee inbeddingen om de semantische afstand te berekenen.

Voor de taak Alternatief gebruik, grotere semantische afstanden correleerden met "creatiever" use-cases voor objecten. De resultaten toonden aan dat voor de drie objecten (vork, blik en boek) menselijke prestaties op betrouwbare wijze resulteerden in hogere cosinusafstanden (en dus grotere semantische ongelijkheid) dan voor GPT-3. Er waren echter gevallen waarin GPT-3.5 en/of GPT-4 de semantische afstandsscores van menselijke creativiteit evenaarden of overtroffen.

Hoewel mensen de neiging hadden creatievere use-cases te bedenken dan GPT-3 (met behulp van semantische afstand, zoals berekend door cosinusafstand, als een proxy voor creativiteit), was GPT-4 meer op het niveau van de mens. Dat wil zeggen, GPT-4 reageerde met items die resulteerden in grotere semantische afstanden met het originele item, op een vergelijkbaar niveau als menselijke prestaties. Zonder dat echte mensen meer subjectieve categorieën annoteren en beslissen, zoals originaliteit, flexibiliteit en bruikbaarheid, is deze kwantificering met behulp van cosinusafstand echter beperkt, aangezien het slechts een klein deel van de creatieve output van de GPT-modellen meet.

Kun je door mensen gegenereerde versus door AI gegenereerde use cases onderscheiden?

Een van de lijsten toont de door mensen gegenereerde alternatieve use-cases voor een blikje en de andere toont alternatieve use-cases die zijn gegenereerd door GPT-4. Kun je het verschil zien? Het antwoord staat aan het einde.

Lijst 1: Gebruik voor blik

als spiegel
om speelgoed te maken
als kunst
ter herinnering aan Andy Warhol
als sleutelhanger met de clip uit het blikje
als sieraden

Lijst 2: Gebruik voor blik

miniatuur drumstel
eigenzinnige plantenbak
geïmproviseerde koekjessnijder
zelfgemaakt kampvuur
grillige windgong
miniatuur kruidentuin

De volgende test in het volgende gedeelte meet ook divergerend denken.

3. Uiteenlopende associatietaak: tien woorden, geen verbanden

De derde creativiteitstest is de Divergent Association Task (DAT), meer recent in 2021 gecreëerd door een groep onderzoekers [5]. Deze test omvat het benoemen van tien zelfstandige naamwoorden die zoveel mogelijk van elkaar verschillen. Deze test, zoals blijkt uit de naam, is afwijkend en ook heeft geen juiste antwoorden.

Er is een versie van de test online op deze website. Het duurt maar een paar minuten, omdat het gaat om het bedenken van een lijst van tien zelfstandige naamwoorden die zo weinig mogelijk verband houden. Dit is mijn resultaat van de website:

De DAT-score

Hoe wordt de score berekend? De auteurs beschrijven hun proces hier. De DAT-score wordt berekend met behulp van inbeddingen en cosinusafstand. Ik pas hun proces voor het berekenen van de score aan [6]:

Berekenen Handschoen inbedding voor elk woord
Bereken de cosinusafstand tussen elk paar woorden
Neem het gemiddelde van die waarde

Dit proces is vergelijkbaar met de methode die wordt gebruikt om de creativiteitsproxyscore te berekenen in de Alternate Uses-taak, met als enige verschil het gebruikte woordinbeddingsmodel.

Divergentie tussen modellen vergelijken

De volgende prompt, die ik gebruik om de GPT-modellen te vragen, is afkomstig uit de DAT-website.

Voer 10 woorden in die zoveel mogelijk van elkaar verschillen, in alle betekenissen en gebruik van de woorden. Regels - Alleen enkele woorden in het Engels. - Alleen zelfstandige naamwoorden (bijvoorbeeld dingen, objecten, concepten). - Geen eigennamen (bijv. geen specifieke mensen of plaatsen). - Geen gespecialiseerde woordenschat (bijvoorbeeld geen technische termen). - Bedenk de woorden zelf (kijk bijvoorbeeld niet alleen naar objecten in je omgeving).

Ik heb GPT-2 niet opgenomen in de onderstaande resultaten, omdat de door GPT-2 gegenereerde uitvoer wartaal was. (U kunt een voorbeeld hiervan zien in de bijlage aan het einde van het artikel).

De resultaten laten zien dat de DAT-score voor elk nieuwer model toenam. Dit betekent dat latere modellen beter waren in het genereren van 10 woorden die zo semantisch mogelijk van elkaar verschilden.

De volgende lijst gegenereerd door GPT-3 had bijvoorbeeld een score van 0.36:

schemering, nacht, dag, dageraad, ochtend, middag, avond, middernacht, schemering

Aan de andere kant had de volgende lijst gegenereerd door GPT-4 een score van 0.95:

olifant, microscoop, zandkasteel, sterrenstelsel, harmonie, spatel, gletsjer, filosofie, tamboerijn, droogte

Volgens de paper waarin de DAT-test wordt geïntroduceerd, varieerden de scores gewoonlijk van 65 tot 90, met een gemiddelde tussen 75 en 80. Een score van 95 werd als zeer hoog beschouwd.

Iets om op te merken in de bovenstaande afbeelding is dat de foutbalken voor GPT-4 veel kleiner waren dan die voor GPT-3. De betekenis hiervan wordt veel duidelijker in het volgende experiment, waarin ik de mate van willekeur in de generatie van elk GPT-model varieerde door de parameter 'temperatuur' aan te passen.

Temperatuur is een waarde tussen 0 en 1, waarbij waarden dichter bij 0 de meest voorspelbare zijn en 1 de meest willekeurige. Ik probeerde temperatuurwaarden tussen 0.5 en 0.9 in stappen van 0.1 (in eerdere experimenten hield ik de temperatuur op 0.7, wat de standaardwaarde is). Ik verwachtte meer variantie voor hogere temperatuurwaarden en meer consistentie voor lagere temperaturen.

De resultaten toonden echter aan dat de temperatuur er niet zo toe deed als het model in termen van semantische afstandsvariantie. Voor GPT-3 varieerde de DAT-score voor elke lijst van 10 woorden, ondanks de temperatuur, enorm. Terwijl, aan de andere kant, voor GPT-4, ondanks de temperatuur, de DAT-score strak consistent bleef in een klein bereik met zeer weinig variantie.

De implicaties hiervan werden duidelijker toen ik keek naar de daadwerkelijke tekst die door de drie GPT-modellen werd gegenereerd. GPT-4 was in zijn generaties veel minder variabel dan GPT-3. In zekere zin voelde het alsof GPT-4 het "juiste antwoord" al wist voor een taak die geen goed antwoord zou moeten hebben.

Door de antwoorden voor alle temperatuurscores samen te voegen, liet ik elk model 10 keer een lijst van 50 woorden genereren. Vervolgens keek ik hoe vaak verschillende woorden in alle 50 runs voorkwamen. Merk op dat het meest gegenereerde woord door GPT-3 boek was, dat 19 van de 50 keer verscheen = 38%. Aan de andere kant was het meest gegenereerde woord door GPT-4 microscoop, dat verscheen 48/50=96% van de tijd.

Dit bevestigt de bewering dat GPT-3 in feite meer variabel is in zijn woordgeneraties, terwijl GPT-4 op veilig speelde door veel van dezelfde woorden te voorspellen waarvan het wist dat ze hoog zouden scoren op de "diverse woorden"-taken - woorden als microscoop, vulkaan, olifant en sterrenstelsel.

Deze bevinding illustreert hoe GPT-4 "de code lijkt te hebben gekraakt" voor het genereren van wat het beschouwt als diverse woorden. Als dit het geval is, weet ik niet zeker of ik vol vertrouwen kan zeggen dat GPT-4 creatiever is dan dat het een lokaal optima heeft bereikt voor "hoe je dit specifieke spel het beste kunt spelen".

Conclusie

We kunnen ons een toekomst voorstellen waarin GPT-3 en andere generatieve LLM-reacties niet te onderscheiden zijn van mensen, hoewel het creatieve proces anders zal zijn.
- van De creativiteit van GPT-3 op de proef stellen (alternatieve toepassingen).

Het is een uitdaging om iets zo complex en veelzijdig als creativiteit nauwkeurig te meten met behulp van een beperkte reeks op tekst gebaseerde tests. Hoewel tests zoals de Visuele Remote Associates-test proberen dit probleem aan te pakken door een visueel element op te nemen, blijven er inherente beperkingen aan dergelijke beoordelingen. Convergente tests (zoals de Remote Associates Test), die een 'juist antwoord' hebben, belonen niet altijd de meest creatieve of juiste oplossing. Aan de andere kant zijn divergente tests (zoals de Divergent Association Test), die geen specifiek goed antwoord hebben, afhankelijk van woordinbeddingen die onvolmaakt zijn en vooroordelen kunnen bevatten.

Bovendien kunnen de prestaties van GPT-modellen op deze tests worden beïnvloed door hun blootstelling aan de taken tijdens de training, wat mogelijk kan leiden tot gegevensoverlap. De prestaties van GPT-4 op de Divergence Association Test toonden bijvoorbeeld een eigenaardige herhaling van woorden aan, wat suggereert dat het mogelijk voorkennis had van de 'juiste' antwoorden. Het is cruciaal om alternatieve testmethoden te ontwikkelen, zoals er zijn geweest geruchten dat GPT-4 wordt getraind op testgegevens, met name bij codeertaken.

Ondanks deze beperkingen kunnen creativiteitstests dienen als waardevolle benchmarks voor het vergelijken en volgen van de prestaties van grote taalmodellen. Toekomstige onderzoeksexperimenten zouden die van dit artikel in andere talen kunnen herhalen om de creativiteit van GPT-modellen in taalkundige domeinen te meten. Door dit te doen, kunnen we een beter begrip krijgen van door AI gegenereerde inhoud en de mogelijkheden en beperkingen van deze geavanceerde taalmodellen verder verkennen.

Remote Association Test: vergelijking van correct beantwoorde vragen van GPT-modellen

We kunnen de moeilijkheidsgraad bekijken voor elke vraag die het model correct heeft beantwoord. We kunnen zien dat GPT3, GPT3.5 en GPT4 vergelijkbaar zijn in het vermogen om proporties van moeilijke vragen te beantwoorden.

Externe associaties GPT-2 had gelijk en GPT-4 had ongelijk

Woorden: kat / nummer / telefoon Niveau: Gemiddeld Antwoord: bel GPT2: bel GPT4: kies Woorden: land / hand / huis Niveau: Zeer moeilijk Antwoord: boerderij GPT2: boerderij GPT4: eigendom Woorden: water / pen / frisdrank Niveau: Onbekend Antwoord : fontein GPT2: fontein GPT4: vloeistof Woorden: meten / worm / video Niveau: heel gemakkelijk Antwoord: tape GPT2: tape GPT4: lengte Woorden: cottage / baksteen / cake Niveau: heel gemakkelijk Antwoord: kaas GPT2: kaas GPT4: laag Woorden: through / disk / way Niveau: Moeilijk Antwoord: rijden GPT2: rijden GPT4: cirkel Woorden: stinkdier / koningen / gekookt Niveau: Zeer eenvoudig Antwoord: kool GPT2: kool GPT4: ruiken Woorden: springen / doden / gelukzaligheid Niveau: Moeilijk Antwoord: vreugde GPT2: vreugde GPT4: hoogte

GPT-4's antwoorden op willekeurig gegenereerde Remote Association Test-vragen

Hier zijn de uitvoer gegenereerd door GPT-4 voor een paar willekeurig gegenereerde Remote Association Test-vragen.

Ringen

Deze voelde een beetje schoenlepel aan. Ik zou het deel kunnen kopen over ringen als een "symbool van complicaties, vooral in relaties" als je je super afgemat voelt over je liefdesleven of zoiets. Maar het laatste stuk voelt geforceerd aan

Woorden: complicaties | saturnus | druppels
Antwoord: ringen
Reden: 
1. Complicaties: Ringen kunnen een symbool zijn van complicaties, vooral in relaties, omdat ze staan voor toewijding en de complexiteit die daarmee gepaard gaat.
2. Saturnus: Saturnus staat bekend om zijn mooie en prominente ringen, voornamelijk gemaakt van ijsdeeltjes en wat rotsachtig puin.
3. Druppels: Een ring kan worden gezien als een druppel of lus van materiaal, zoals metaal of plastic, die een volledige cirkel vormt.

Revolutie. Monte Cassino is inderdaad een echte plaats en het werd inderdaad gebombardeerd tijdens de Tweede Wereldoorlog.

Woorden: belfast | beweging | monte Antwoord: Revolutie Reden: 1. Belfast is een stad in Noord-Ierland die aanzienlijke politieke en sociale veranderingen heeft ondergaan als gevolg van de Ierse Republikeinse beweging. 2. Beweging is een algemene term die politieke en sociale veranderingen kan beschrijven, vaak veroorzaakt door revoluties. 3. Monte verwijst waarschijnlijk naar Monte Cassino, een historische plek in Italië waar een belangrijke veldslag plaatsvond tijdens de Tweede Wereldoorlog, een tijd van wereldwijde revolutie en verandering. Daarom is het woord "revolutie" gerelateerd aan elk van de eerste drie woorden, aangezien het een significante verandering en onrust vertegenwoordigt.

Helpen. Een interessante manier om de stad "Southampton" te verbinden met "helpen" via hulpcentra...

Woorden: zorgt voor | assistent | Southampton
Antwoord: helpen
Reden: 
1. Zorgt ervoor: "Help" is gerelateerd aan "zorgt" omdat het een actie is die het succes of de voltooiing van een taak kan garanderen.
2. Assistent: "Help" is gerelateerd aan "assistent" omdat een assistent hulp biedt bij verschillende taken en activiteiten.
3. Southampton: "Help" is gerelateerd aan "Southampton", aangezien Southampton een stad in Engeland is met verschillende hulpcentra en diensten, zoals de Southampton Voluntary Services, die hulp bieden aan de gemeenschap.

Internet. Ik neem aan dat zijn redenering volkomen juist is.

Woorden: uruguay | toegankelijk | vereiste
Antwoord: internetten
Reden: Uruguay heeft een overheidsinitiatief genaamd Plan Ceibal, dat tot doel heeft het internet toegankelijk te maken voor al zijn burgers, te voldoen aan een vereiste voor digitale inclusie en het verkleinen van de digitale kloof.

Taal. Misschien een beetje generiek, maar ik denk dat het werkt.

Woorden: compensatie | atlas | voorvoegsel
Antwoord: taal
Reden: 
1. Compensatie - In de taalkunde is compensatie een fenomeen waarbij een klankverandering in een deel van een woord wordt "gecompenseerd" door een verandering in een ander deel van het woord om de algehele structuur van het woord te behouden. 
2. Atlas - Een atlas is een verzameling kaarten, die vaak labels en beschrijvingen in een specifieke taal bevatten.
3. Voorvoegsel - Een voorvoegsel is een morfeem of een taalkundig element dat aan het begin van een woord wordt toegevoegd om een nieuw woord met een andere betekenis te creëren, wat een concept is in taal en grammatica.

Gezondheid. Het gedeelte over gezondheidstoezicht is een beetje donker, maar ik denk dat het werkt.

Woorden: dieet | bewaking | geboren
Antwoord: Gezondheid
Reden: 
1. Dieet - Het dieet van een persoon houdt rechtstreeks verband met zijn gezondheid, omdat het zijn algehele welzijn, energieniveau en risico op bepaalde ziekten kan beïnvloeden.
2. Surveillance - Gezondheidssurveillance is de voortdurende, systematische verzameling, analyse en interpretatie van gegevens die essentieel zijn voor de planning, implementatie en evaluatie van gezondheidspraktijken.
3. Geboren - Wanneer een persoon wordt geboren, is zijn gezondheid van het grootste belang, omdat dit langdurige gevolgen kan hebben voor zijn ontwikkeling, groei en algehele kwaliteit van leven.

ERIK! Deze was eigenlijk best grappig.

Woorden: erik | cijfers | inkoop
Antwoord: boekhouder
Reden: Een accountant is een professional die Eric genoemd kan worden, werkt met cijfers (cijfers) en is vaak betrokken bij aankoopbeslissingen voor bedrijven.

GPT-2-uitvoer op de divergente associatietest

Ik heb GPT-2 uitgesloten van de Divergent-testanalyses omdat de output absoluut onzin was. Zelfs toen ik de prompt zoveel mogelijk vereenvoudigde, was de uitvoer niet erg nuttig. Ik voeg hier een voorbeeld toe omdat ik ze eigenlijk best grappig vond.

Maak een lijst van 10 woorden die zoveel mogelijk van elkaar verschillen: "Merry Christmas" "Ik ben geen robot, wij zijn de robots" "Het is maar goed dat we allemaal robots zijn" "Ik ben maar een robot" "Ik ben maar een robot" "Ik ben maar een robot" "Ik ben maar een robot" "Ik ben maar een robot" "Ik ben maar een robot" "Ik ben maar een robot"

Referenties

[1] Guilford, JP (1967). De aard van menselijke intelligentie.

[2] Mednick, SA, & Mednick, MT (1959,1962). Remote Associates Test, college en volwassen formulier.

[3] De 10,000 meest voorkomende Engelse woorden werden bepaald door n-gram frequentieanalyse of Het Triljoen Word Corpus van Google. Ik heb deze lijst verder gefilterd om stopwoorden te verwijderen (bijvoorbeeld gewone woorden in het Engels zoals "de", "en" en "jij"). Hieruit meer informatie bewaarplaats.

[4] Ik heb dit een keer op een dating-app gezet en helaas vond niemand het grappig.

[5] Olson, Vlaamse gaai A.; Nahas, Johnny; Chmoulevitch, Denis; Kropper, Simon J.; Webb, Margaret E. (22 juni 2021). "Het benoemen van niet-verwante woorden voorspelt creativiteit". Proceedings van de National Academy of Sciences. 118 (25): e2022340118. twee:10.1073 / pnas.2022340118. PMC 8237676. PMID 34140408

[6] De auteurs nemen een subset van 7 van de 10 woorden om scores te berekenen. Ik heb alle 10 woorden bewaard. Ook gebruikten de auteurs de 840B-GloVe-inbeddingen terwijl ik de kleinere 6B-GloVe-inbeddingen gebruikte. Ik vergeleek mijn GloVe-inbeddingsresultaten met de officiële DAT-score en vond de resultaten ondanks deze verschillen vergelijkbaar.

Geniet van dit artikel? Meld u aan voor meer AI-onderzoeksupdates.

We laten het u weten wanneer we meer samenvattende artikelen zoals deze vrijgeven.

Verwant

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoAiStream. Web3 gegevensintelligentie. Kennis versterkt. Toegang hier.
De toekomst slaan met Adryenn Ashley. Toegang hier.
Bron: https://www.topbots.com/exploring-creativity-in-large-language-models/

Generatieve data-intelligentie