Wenn Sie wissen möchten, was als Nächstes in der KI passiert, folgen Sie einfach den Daten. ChatGPT und DALL-E wurden mit Unmengen von Internetdaten trainiert. Generative KI macht Fortschritte in Biotechnologie und Robotik dank vorhandener oder neu zusammengestellter Datensätze. Eine Möglichkeit, einen Blick in die Zukunft zu werfen, besteht darin, sich zu fragen: Welche riesigen Datensätze sind noch reif für die Ernte?
Vor Kurzem ist ein neuer Hinweis aufgetaucht.
Kurz und Blog-Post sagte das Spieleunternehmen Niantic, es trainiere eine neue KI anhand von Millionen von realen Bildern, die von Pokémon Go-Spielern und in seiner Scaniverse-App gesammelt wurden. Inspiriert von den großen Sprachmodellen, die ChatbotsSie bezeichnen ihren Algorithmus als „großes georäumliches Modell“ und hoffen, dass er in der physischen Welt so fließend sein wird wie ChatGPT in der Welt der Sprache.
Folgen Sie den Daten
Dieser Moment in der KI wird durch Algorithmen definiert, die Sprache, Bilder und zunehmend auch Videos generieren. Mit DALL-E und ChatGPT von OpenAI kann jeder mithilfe der Alltagssprache einen Computer dazu bringen, fotorealistische Bilder zu erstellen oder Quantenphysik zu erklären. Jetzt ist der Sora-Algorithmus des Unternehmens wendet einen ähnlichen Ansatz zur Videogenerierung an. Andere konkurrieren mit OpenAI, darunter Google, Meta und Anthropisch.
Die entscheidende Erkenntnis, die zu diesen Modellen führte: Die rasante Digitalisierung der letzten Jahrzehnte ist nicht nur dazu nützlich, uns Menschen zu unterhalten und zu informieren – sie ist auch Nahrung für die KI. Kaum jemand hätte das Internet bei seinem Aufkommen so gesehen, aber im Nachhinein betrachtet war die Menschheit damit beschäftigt, einen enormen Bildungsdatensatz aus Sprache, Bildern, Code und Videos zusammenzustellen. Ob gut oder schlecht – es sind mehrere Klagen wegen Urheberrechtsverletzungen in Vorbereitung – KI-Unternehmen haben all diese Daten zusammengetragen, um leistungsstarke KI-Modelle zu trainieren.
Nachdem Unternehmen und Forscher nun wissen, dass das Grundrezept gut funktioniert, suchen sie nach weiteren Zutaten.
In der Biotechnologie trainieren Labore KI an Sammlungen von Molekülstrukturen, die über Jahrzehnte aufgebaut wurden, und nutzen diese, um Modellieren und Generieren von Proteinen, DNA, RNA und anderen Biomolekülen die Forschung zu beschleunigen und Wirkstoffforschung. Andere testen große KI-Modelle in selbstfahrenden Autos und Lager- und humanoide Roboter– sowohl um Robotern besser zu sagen, was sie tun sollen, als auch um ihnen beizubringen, wie sie sich in der Welt zurechtfinden und bewegen.
Natürlich ist für Roboter die Beherrschung der physischen Welt entscheidend. So wie Sprache unendlich komplex ist, so sind es auch die Situationen, denen ein Roboter begegnen kann. Von Hand programmierte Robotergehirne können nie alle Variationen berücksichtigen. Deshalb arbeiten Forscher jetzt Erstellen großer Datensätze unter Berücksichtigung von RoboternAber sie erreichen bei weitem nicht die Größenordnung des Internets, wo Milliarden von Menschen schon seit sehr langer Zeit parallel arbeiten.
Könnte es ein Internet für die physische Welt geben? Niantic glaubt das. Es heißt Pokémon Go. Aber das Erfolgsspiel ist nur ein Beispiel. Technologieunternehmen haben Erstellung digitaler Karten der Welt seit Jahren. Nun scheint es wahrscheinlich, dass diese Karten ihren Weg in die KI finden werden.
Pokémon-Trainer
Pokémon Go erschien 2016 und war eine Augmented-Reality-Sensation.
Im Spiel müssen die Spieler digitale Charaktere – sogenannte Pokémon – aufspüren, die überall auf der Welt platziert wurden. Sie nutzen ihre Telefone als eine Art Portal und sehen Charaktere, die auf einen physischen Ort projiziert werden – zum Beispiel auf eine Parkbank oder in die Nähe eines Kinos. Ein neueres Angebot, Pokémon Playground, ermöglicht es den Benutzern, Charaktere an Orten für andere Spieler einzubetten. All dies wird durch die detaillierten digitalen Karten des Unternehmens ermöglicht.
Niantics Visual Positioning System (VPS) kann die Position eines Telefons anhand eines einzigen Standortbilds auf den Zentimeter genau bestimmen. Teilweise erstellt VPS 3D-Karten von Standorten auf klassische Weise, aber das System stützt sich auch auf ein Netzwerk von maschinellen Lernalgorithmen – einen oder mehrere pro Standort –, die über Jahre hinweg anhand von Spielerbildern und Scans trainiert wurden, die aus verschiedenen Winkeln, zu verschiedenen Tages- und Jahreszeiten aufgenommen und mit einer Position in der Welt versehen wurden.
„Im Rahmen des Visual Positioning System (VPS) von Niantic haben wir mehr als 50 Millionen neuronale Netzwerke mit mehr als 150 Billionen Parametern trainiert, was den Betrieb an über einer Million Standorten ermöglicht“, so das Unternehmen. schrieb in seinem jüngsten Blog-Beitrag.
[Eingebetteten Inhalt]
Jetzt möchte Niantic noch einen Schritt weitergehen.
Anstelle von Millionen einzelner neuronaler Netzwerke wollen sie Daten von Pokémon Go und Scaniverse verwenden, um ein einziges Basismodell zu trainieren. Während einzelne Modelle durch die Bilder eingeschränkt sind, die ihnen zugeführt wurden, würde das neue Modell alle Bilder verallgemeinern. Konfrontiert man es beispielsweise mit der Vorderseite einer Kirche, würde es alle Kirchen und Winkel, die es gesehen hat – vorne, seitlich, hinten – heranziehen, um Teile der Kirche zu visualisieren, die ihm nicht gezeigt wurden.
Das ist ein bisschen so, wie wir Menschen es tun, wenn wir uns in der Welt zurechtfinden. Wir können vielleicht nicht um eine Ecke sehen, aber wir können erraten, was sich dort befindet – es könnte ein Flur, die Seite eines Gebäudes oder ein Raum sein – und basierend auf unserem Standpunkt und unserer Erfahrung planen.
Niantic schreibt, dass ein großes georäumliches Modell es ermöglichen würde, Augmented-Reality-Erlebnisse zu verbessern. Das Unternehmen glaubt aber auch, dass ein solches Modell andere Anwendungen antreiben könnte, darunter Robotik und autonome Systeme.
Physisch werden
Niantic glaubt, dass es sich in einer einzigartigen Position befindet, weil es eine engagierte Community hat, die jede Woche eine Million neue Scans beisteuert. Darüber hinaus werden diese Scans aus der Sicht von Fußgängern erstellt, im Gegensatz zu der von der Straße, wie bei Google Maps oder bei selbstfahrenden Autos. Damit liegen sie nicht falsch.
Nehmen wir beispielsweise das Internet, dann können die leistungsfähigsten neuen Datensätze möglicherweise von Millionen oder gar Milliarden Menschen gemeinsam gesammelt werden.
Gleichzeitig ist Pokémon Go nicht allumfassend. Obwohl die Standorte sich über Kontinente erstrecken, sind sie an jedem Ort spärlich und ganze Regionen liegen im Dunkeln. Darüber hinaus kartieren andere Unternehmen, allen voran Google, schon seit langem den Globus. Aber anders als das Internet sind diese Datensätze urheberrechtlich geschützt und zersplittert.
Ob das eine Rolle spielt – das heißt, ob ein Datensatz in der Größe des Internets erforderlich ist, um eine verallgemeinerte KI zu schaffen, die in der physischen Welt so fließend ist wie LLMs in der verbalen – ist nicht klar.
Aber es ist möglich, dass ein vollständigerer Datensatz der physischen Welt aus etwas wie Pokémon Go entsteht, nur in Übergröße. Dies hat bereits mit Smartphones begonnen, die über Sensoren verfügen, um Bilder, Videos und 3D-Scans aufzunehmen. Zusätzlich zu AR-Apps werden Benutzer zunehmend dazu angehalten, diese Sensoren mit KI zu verwenden – beispielsweise indem sie ein Foto von einem Kühlschrank machen und einen Chatbot fragen, was er zum Abendessen kochen soll. Neue Geräte, wie eine AR-Brille könnte diese Art der Nutzung ausweiten und zu einem Datenboom für die physische Welt führen.
Natürlich ist das Sammeln von Daten im Internet bereits umstritten und der Datenschutz ist ein großes Thema. Diese Probleme auf die reale Welt auszudehnen, ist alles andere als ideal.
Nacher 404 Medien veröffentlichte einen Artikel zum Thema, Niantic eine Notiz hinzugefügt„Diese Scan-Funktion ist völlig optional – die Leute müssen einen bestimmten öffentlich zugänglichen Ort aufsuchen und klicken, um zu scannen. So kann Niantic den Leuten neue Arten von AR-Erlebnissen bieten. Einfach nur herumzulaufen und unsere Spiele zu spielen, trainiert kein KI-Modell.“ Andere Unternehmen sind jedoch möglicherweise nicht so transparent, was die Datenerfassung und -verwendung angeht.
Es ist auch nicht sicher, ob neue Algorithmen, die von großen Sprachmodellen inspiriert sind, unkompliziert sein werden. Das MIT beispielsweise hat kürzlich eine neue Architektur entwickelt, die speziell auf die Robotik ausgerichtet ist. „Im Sprachbereich sind die Daten alle nur Sätze“, sagt Lirui Wang, der Hauptautor eines Papiers, das die Arbeit beschreibt. sagte TechCrunch„Wenn wir in der Robotik aufgrund der Heterogenität der Daten auf ähnliche Weise vortrainieren wollen, brauchen wir eine andere Architektur.“
Unabhängig davon werden Forscher und Unternehmen wahrscheinlich weiterhin Erforschung von Bereichen, in denen LLM-ähnliche KI anwendbar sein könnte. Und vielleicht wird es mit der Reife jeder neuen Ergänzung ein bisschen so sein, als würde man eine neue Gehirnregion hinzufügen – wenn man sie zusammenfügt, erhält man Maschinen, die genauso mühelos denken, sprechen, schreiben und sich durch die Welt bewegen wie wir.
Bild: Kamil Switalski on Unsplash
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
- PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
- PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
- PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
- Quelle: https://singularityhub.com/2024/11/27/niantic-is-training-a-giant-geospatial-ai-on-pokemon-go-data/