Zephyrnet-logo

Een AI heeft zojuist taal geleerd door de ogen en oren van een peuter

Datum:

Sam was zes maanden oud toen hij voor het eerst een lichtgewicht camera op zijn voorhoofd bevestigde.

De komende anderhalf jaar zal de camera legde fragmenten van zijn leven vast. Hij kroop tussen de huisdieren van het gezin, keek hoe zijn ouders kookten en huilde met oma op de veranda. Ondertussen registreerde de camera alles wat hij hoorde.

Wat klinkt als een schattige homevideo voor peuters, is eigenlijk een gedurfd concept: kan AI taal leren als een kind? De resultaten zouden ook kunnen onthullen hoe kinderen op jonge leeftijd snel taal en concepten verwerven.

Een nieuwe studie in Wetenschap beschrijft hoe onderzoekers de opnames van Sam gebruikten om een ​​AI te trainen in het begrijpen van taal. Met slechts een klein deel van de levenservaring van één kind gedurende een jaar kon de AI basisconcepten begrijpen, bijvoorbeeld een bal, een vlinder of een emmer.

De AI, genaamd Child's View for Contrastive Learning (CVCL), bootst ruwweg na hoe we als peuters leren door zicht en geluid te matchen. Het is een heel andere benadering dan die van grote taalmodellen zoals deze achter ChatGPT of Bard. Het griezelige vermogen van deze modellen om essays, poëzie of zelfs podcastscripts te maken heeft de wereld in vervoering gebracht. Maar ze moeten biljoenen woorden uit een grote verscheidenheid aan nieuwsartikelen, scenario's en boeken verwerken om deze vaardigheden te ontwikkelen.

Kinderen leren daarentegen met veel minder input en generaliseren hun kennis snel naarmate ze groeien. Wetenschappers vragen zich al lang af of AI deze vaardigheden alleen met alledaagse ervaringen kan vastleggen.

“We laten voor de eerste keer zien dat een neuraal netwerk dat is getraind op deze ontwikkelingsrealistische input van één kind, kan leren woorden te koppelen aan hun visuele tegenhangers”, studeerde auteur Dr. Wai Keen Vong van het Center for Data Science van NYU. zei in een persbericht over het onderzoek.

Kinderspel

Kinderen nemen gemakkelijk woorden en hun betekenis op uit alledaagse ervaringen.

Als ze nog maar zes maanden oud zijn, beginnen ze woorden te verbinden met wat ze zien. Een rond springerig ding is bijvoorbeeld een 'bal'. Als ze twee jaar oud zijn, kennen ze ongeveer 300 woorden en hun concepten.

Wetenschappers hebben lang gedebatteerd over hoe dit gebeurt. Eén theorie zegt dat kinderen leren om wat ze zien te matchen met wat ze horen. Een ander suggereert dat het leren van talen een bredere ervaring van de wereld vereist, zoals sociale interactie en het vermogen om te redeneren.

Het is moeilijk om deze ideeën uit elkaar te houden met traditionele cognitieve tests bij peuters. Maar we kunnen een antwoord krijgen door een AI te trainen door de ogen en oren van een kind.

M3GAN?

De nieuwe studie maakte gebruik van een rijke videobron genaamd ZEGCam, inclusief gegevens die zijn verzameld van drie kinderen tussen 6 en 32 maanden oud met behulp van GoPro-achtige camera's die op hun voorhoofd zijn vastgebonden.

Twee keer per week namen de camera's ongeveer een uur aan beeld- en geluidsmateriaal op terwijl ze verzorgden, kropen en speelden. Alle hoorbare dialogen werden omgezet in ‘uitingen’: woorden of zinnen die werden uitgesproken voordat de spreker of het gesprek veranderde. Het resultaat is een schat aan multimediagegevens vanuit het perspectief van baby's en peuters.

Voor het nieuwe systeem ontwierp het team twee neurale netwerken met een ‘rechter’ om ze te coördineren. Eén vertaalde beelden uit de eerste persoon naar het wie en wat van een scène: is het een moeder die kookt? De ander ontcijferde woorden en betekenissen uit de audio-opnamen.

De twee systemen werden vervolgens in de tijd gecorreleerd, zodat de AI leerde correcte beelden met woorden te associëren. De AI leerde bijvoorbeeld een afbeelding van een baby te matchen met de woorden ‘Kijk, daar is een baby’ of een afbeelding van een yogabal met ‘Wauw, dat is een grote bal’. Met training leerde het geleidelijk het concept van een yogabal te scheiden van een baby.

“Dit geeft het model een idee welke woorden met welke objecten geassocieerd moeten worden”, zegt Vong.

Het team trainde vervolgens de AI op video's van ongeveer anderhalf jaar uit Sams leven. Samen bedroeg het ruim 600,000 videoframes, gecombineerd met 37,500 getranscribeerde uitingen. Hoewel de cijfers groot klinken, vertegenwoordigen ze grofweg slechts één procent van Sams dagelijkse wakkere leven, en dat is een fluitje van een cent vergeleken met de hoeveelheid gegevens die wordt gebruikt om grote taalmodellen te trainen.

Baby-AI in opkomst

Om het systeem te testen, heeft het team een ​​algemene cognitieve test aangepast die wordt gebruikt om de taalvaardigheid van kinderen te meten. Ze lieten de AI vier nieuwe afbeeldingen zien – een kat, een wieg, een bal en een gazon – en vroegen welke de bal was.

Over het geheel genomen koos de AI ongeveer 62 procent van de tijd het juiste beeld. De prestaties kwamen bijna overeen met een geavanceerd algoritme dat was getraind op 400 miljoen beeld- en tekstparen van internet – ordes van grootte meer gegevens dan die werden gebruikt om de AI in het onderzoek te trainen. Ze ontdekten dat het koppelen van videobeelden aan audio cruciaal was. Toen het team videoframes en de bijbehorende uitingen door elkaar schudde, viel het model volledig uiteen.

De AI zou ook buiten de gebaande paden kunnen ‘denken’ en kunnen generaliseren naar nieuwe situaties.

In een andere test werd het getraind vanuit Sams perspectief op een prentenboek, terwijl zijn ouders zeiden: "Het is een eend en een vlinder." Later hield hij een speelgoedvlinder omhoog toen hem werd gevraagd: "Kun jij de vlinder maken?" Toen het werd uitgedaagd met veelkleurige vlinderafbeeldingen – afbeeldingen die de AI nog nooit eerder had gezien – detecteerde het drie van de vier voorbeelden van ‘vlinders’ met een nauwkeurigheid van meer dan 80 procent.

Niet alle woordconcepten scoorden hetzelfde. ‘Lepel’ was bijvoorbeeld een worsteling. Maar het is de moeite waard om erop te wijzen dat het net zo moeilijk is reCAPTCHAwaren de trainingsbeelden zelfs voor een mens moeilijk te ontcijferen.

Growing Pains

De AI bouwt voort op recente ontwikkelingen op het gebied van multimodaal machinaal leren, dat tekst, afbeeldingen, audio of video combineert om het brein van een machine te trainen.

Met input uit de ervaring van slechts één kind kon het algoritme vastleggen hoe woorden zich tot elkaar verhouden en woorden aan afbeeldingen en concepten koppelen. Het suggereert dat het horen van woorden en het matchen ervan met wat ze zien, voor peuters helpt hun woordenschat op te bouwen.

Dat wil niet zeggen dat andere hersenprocessen, zoals sociale signalen en redeneren, geen rol spelen. Het toevoegen van deze componenten aan het algoritme zou het potentieel kunnen verbeteren, schreven de auteurs.

Het team is van plan het experiment voort te zetten. Voorlopig leert de “baby” AI alleen van stilstaande beeldframes en heeft een vocabulaire dat voornamelijk uit zelfstandige naamwoorden bestaat. Het integreren van videosegmenten in de training kan de AI helpen werkwoorden te leren, omdat video beweging omvat.

Het toevoegen van intonatie aan spraakgegevens kan ook helpen. Kinderen leren al vroeg dat het 'hmm' van een moeder enorm verschillende betekenissen kan hebben, afhankelijk van de toon.

Maar over het algemeen is het combineren van AI en levenservaringen een krachtige nieuwe methode om zowel machine- als menselijke hersenen te bestuderen. Het zou ons kunnen helpen nieuwe AI-modellen te ontwikkelen die leren als kinderen, en mogelijk ons ​​begrip van hoe onze hersenen taal en concepten leren, opnieuw vormgeven.

Beeldcredits: Wai Keen Vong

spot_img

De blote voeten VC

LifeSciVC

Laatste intelligentie

spot_img