Zephyrnet-Logo

Eine KI hat gerade die Sprache durch die Augen und Ohren eines Kleinkindes gelernt

Datum:

Sam war sechs Monate alt, als er sich zum ersten Mal eine leichte Kamera an die Stirn schnallte.

Für die nächsten anderthalb Jahre Die Kamera fing Ausschnitte aus seinem Leben ein. Er kroch um die Haustiere der Familie herum, sah seinen Eltern beim Kochen zu und weinte mit Oma auf der Veranda. Währenddessen zeichnete die Kamera alles auf, was er hörte.

Was wie ein süßes Heimvideo für Kleinkinder klingt, ist tatsächlich ein gewagtes Konzept: Kann KI wie ein Kind Sprache lernen? Die Ergebnisse könnten auch zeigen, wie Kinder sich schon in jungen Jahren schnell Sprache und Konzepte aneignen.

Eine neue Studie in Wissenschaft beschreibt, wie Forscher Sams Aufzeichnungen nutzten, um einer KI beizubringen, Sprache zu verstehen. Mit nur einem winzigen Teil der Lebenserfahrung eines Kindes im Laufe eines Jahres war die KI in der Lage, grundlegende Konzepte zu begreifen – zum Beispiel einen Ball, einen Schmetterling oder einen Eimer.

Die KI namens Child's View for Contrastive Learning (CVCL) ahmt in etwa die Art und Weise nach, wie wir als Kleinkinder lernen, indem sie das Sehen mit dem Hören in Einklang bringt. Es ist ein ganz anderer Ansatz als der, den große Sprachmodelle wie diese verfolgen hinter ChatGPT oder Bard. Die unheimliche Fähigkeit dieser Models, Essays, Gedichte oder sogar Podcast-Skripte zu verfassen, hat die Welt begeistert. Um diese Fähigkeiten zu entwickeln, müssen sie jedoch Billionen von Wörtern aus einer Vielzahl von Nachrichtenartikeln, Drehbüchern und Büchern verdauen.

Im Gegensatz dazu lernen Kinder mit weitaus weniger Input und verallgemeinern ihr Gelerntes im Laufe ihres Wachstums schnell. Wissenschaftler fragen sich seit langem, ob KI diese Fähigkeiten allein anhand alltäglicher Erfahrungen erfassen kann.

„Wir zeigen zum ersten Mal, dass ein neuronales Netzwerk, das auf diesen entwicklungsrealistischen Input eines einzelnen Kindes trainiert wird, lernen kann, Wörter mit ihren visuellen Gegenstücken zu verknüpfen“, so Studienautor Dr. Wai Keen Vong vom Center for Data Science der NYU sagte in einer Pressemitteilung über die Forschung.

Kinderspiel

Kinder nehmen Wörter und ihre Bedeutung leicht aus alltäglichen Erfahrungen auf.

Mit nur sechs Monaten beginnen sie, Wörter mit dem, was sie sehen, zu verbinden – zum Beispiel ist ein rundes, hüpfendes Ding ein „Ball“. Mit zwei Jahren kennen sie etwa 300 Wörter und deren Konzepte.

Wissenschaftler diskutieren seit langem, wie das passieren kann. Eine Theorie besagt, dass Kinder lernen, das, was sie sehen, mit dem abzugleichen, was sie hören. Ein anderer schlägt vor, dass das Erlernen einer Sprache eine umfassendere Erfahrung der Welt erfordert, beispielsweise soziale Interaktion und die Fähigkeit zum logischen Denken.

Es ist schwierig, diese Vorstellungen mit herkömmlichen kognitiven Tests bei Kleinkindern auseinanderzuhalten. Aber vielleicht bekommen wir eine Antwort, indem wir eine KI durch die Augen und Ohren eines Kindes trainieren.

M3GAN?

Die neue Studie nutzte eine umfangreiche Videoressource namens SAYCamDazu gehören Daten, die von drei Kindern im Alter zwischen 6 und 32 Monaten gesammelt wurden, die GoPro-ähnliche Kameras an der Stirn trugen.

Zweimal pro Woche zeichneten die Kameras rund eine Stunde Film- und Tonaufnahmen auf, während sie säugten, krabbelten und spielten. Alle hörbaren Dialoge wurden in „Äußerungen“ transkribiert – Wörter oder Sätze, die gesprochen wurden, bevor der Sprecher oder das Gespräch wechselte. Das Ergebnis ist eine Fülle multimedialer Daten aus der Sicht von Babys und Kleinkindern.

Für das neue System entwarf das Team zwei neuronale Netze mit einem „Richter“, der sie koordiniert. Einer übersetzte First-Person-Visuals in das Wer und Was einer Szene – ist es eine Mutter, die kocht? Die anderen entschlüsselten Wörter und Bedeutungen aus den Audioaufnahmen.

Die beiden Systeme wurden dann zeitlich korreliert, sodass die KI lernte, richtige Bilder mit Wörtern zu verknüpfen. Beispielsweise lernte die KI, ein Bild eines Babys den Worten „Schau, da ist ein Baby“ oder ein Bild eines Yogaballs den Worten „Wow, das ist ein großer Ball“ zuzuordnen. Mit dem Training lernte es nach und nach, das Konzept eines Yogaballs von einem Baby zu trennen.

„Dies gibt dem Modell einen Hinweis darauf, welche Wörter mit welchen Objekten verknüpft werden sollten“, sagte Vong.

Anschließend trainierte das Team die KI anhand von Videos aus etwa anderthalb Jahren von Sams Leben. Zusammen waren es über 600,000 Videobilder, gepaart mit 37,500 transkribierten Äußerungen. Auch wenn die Zahlen groß klingen, machen sie doch nur etwa ein Prozent von Sams täglichem Wachleben aus und sind Kleinigkeiten im Vergleich zu der Datenmenge, die zum Trainieren großer Sprachmodelle verwendet wird.

Baby-KI auf dem Vormarsch

Um das System zu testen, passte das Team einen gängigen kognitiven Test an, mit dem die Sprachfähigkeiten von Kindern gemessen werden. Sie zeigten der KI vier neue Bilder – eine Katze, ein Kinderbett, einen Ball und einen Rasen – und fragten, welches der Ball sei.

Insgesamt hat die KI in etwa 62 Prozent der Fälle das richtige Bild ausgewählt. Die Leistung entsprach nahezu einem hochmodernen Algorithmus, der auf 400 Millionen Bild- und Textpaaren aus dem Internet trainiert wurde – um Größenordnungen mehr Daten als die, die zum Training der KI in der Studie verwendet wurden. Sie fanden heraus, dass die Verknüpfung von Videobildern mit Audio von entscheidender Bedeutung war. Als das Team Videobilder und die dazugehörigen Äußerungen mischte, brach das Modell völlig zusammen.

Die KI könnte auch über den Tellerrand hinaus „denken“ und auf neue Situationen verallgemeinern.

In einem anderen Test wurde es auf Sams Perspektive auf ein Bilderbuch trainiert, als seine Eltern sagten: „Es ist eine Ente und ein Schmetterling.“ Später hielt er einen Spielzeugschmetterling hoch, als er gefragt wurde: „Können Sie den Schmetterling machen?“ Bei der Herausforderung mit mehrfarbigen Schmetterlingsbildern – solche, die die KI noch nie zuvor gesehen hatte – erkannte sie drei von vier Beispielen für „Schmetterling“ mit einer Genauigkeit von über 80 Prozent.

Nicht alle Wortkonzepte erzielten die gleiche Punktzahl. „Löffel“ zum Beispiel war ein Kampf. Aber es ist erwähnenswert, dass es schwierig ist reCAPTCHA, waren die Trainingsbilder selbst für einen Menschen schwer zu entziffern.

Growing Pains

Das KI baut auf den jüngsten Fortschritten im multimodalen maschinellen Lernen auf, das Text, Bilder, Audio oder Video kombiniert, um ein Maschinengehirn zu trainieren.

Mithilfe der Erfahrungen eines einzelnen Kindes war der Algorithmus in der Lage, die Beziehung zwischen Wörtern zu erfassen und Wörter mit Bildern und Konzepten zu verknüpfen. Es deutet darauf hin, dass das Hören von Wörtern und das Zuordnen zu dem, was sie sehen, für Kleinkinder dabei hilft, ihren Wortschatz zu erweitern.

Das heißt nicht, dass andere Gehirnprozesse wie soziale Signale und logisches Denken keine Rolle spielen. Das Hinzufügen dieser Komponenten zum Algorithmus könnte ihn möglicherweise verbessern, schreiben die Autoren.

Das Team plant, das Experiment fortzusetzen. Derzeit lernt die „Baby“-KI nur aus Standbildern und verfügt über einen Wortschatz, der hauptsächlich aus Substantiven besteht. Die Integration von Videosegmenten in das Training könnte der KI beim Erlernen von Verben helfen, da Videos Bewegungen beinhalten.

Auch das Hinzufügen der Intonation zu Sprachdaten könnte hilfreich sein. Kinder lernen schon früh, dass das „hmm“ einer Mutter je nach Ton ganz unterschiedliche Bedeutungen haben kann.

Aber insgesamt ist die Kombination von KI und Lebenserfahrungen eine leistungsstarke neue Methode, um sowohl maschinelle als auch menschliche Gehirne zu untersuchen. Es könnte uns dabei helfen, neue KI-Modelle zu entwickeln, die wie Kinder lernen, und möglicherweise unser Verständnis darüber, wie unser Gehirn Sprache und Konzepte lernt, neu zu gestalten.

Bildquelle: Wai Keen Vong

spot_img

Neueste Intelligenz

spot_img