26 C
New York

Deze mini-AI-modellen evenaren OpenAI met 1,000 keer minder data

Datum:

De kunstmatige intelligentie-industrie is geobsedeerd door omvang. Grotere algoritmes. Meer data. Uitgestrekte datacenters die over een paar jaar genoeg elektriciteit kunnen verbruiken om hele steden van stroom te voorzien.

Deze onverzadigbare honger is de reden waarom OpenAI, dat op weg is om $3.7 miljard aan inkomsten, maar verlies van $5 miljard dit jaar-alleen maar aangekondigd dat het is verhoogd Er werd nog eens 6.6 miljard dollar aan financiering vrijgemaakt en er werd een kredietlijn geopend van nog eens 4 miljard dollar.

Zulke opvallende getallen doen je vergeten dat grootte niet alles is.

Sommige onderzoekers, vooral zij die over minder middelen beschikken, willen meer doen met minder. AI-schaalvergroting zal doorgaan, maar die algoritmes worden ook veel efficiënter naarmate ze groeien.

Vorige week brachten onderzoekers van het Allen Institute for Artificial Intelligence (Ai2) een nieuwe familie open-source multimodale modellen uit die kunnen concurreren met state-of-the-art modellen zoals OpenAI's GPT-4o, maar dan een orde van grootte kleiner. De modellen, Molmo genaamd, variëren van 1 miljard tot 72 miljard parameters. GPT-4o, ter vergelijking, wordt geschat op meer dan een biljoen parameters.

Het zit allemaal in de data

Volgens Ai2 is deze prestatie bereikt door de nadruk te leggen op de kwaliteit van de gegevens in plaats van op de kwantiteit.

Algoritmen gevoed met miljarden voorbeelden, zoals GPT-4o, zijn indrukwekkend capabel. Maar ze nemen ook een hoop informatie van lage kwaliteit op. Al deze ruis verbruikt kostbare computerkracht.

om hun te bouwen nieuwe multimodale modellen, Ai2 stelde een backbone samen van bestaande grote taalmodellen en vision encoders. Vervolgens stelden ze een meer gerichte, kwalitatief hoogwaardige dataset samen van ongeveer 700,000 afbeeldingen en 1.3 miljoen bijschriften om nieuwe modellen te trainen met visuele mogelijkheden. Dat klinkt misschien als veel, maar het is ongeveer 1,000 keer minder data dan wat wordt gebruikt in gepatenteerde multimodale modellen.

In plaats van bijschriften te schrijven, vroeg het team annotators om verbale beschrijvingen van 60 tot 90 seconden op te nemen, waarin ze een lijst met vragen over elke afbeelding beantwoordden. Vervolgens transcribeerden ze de beschrijvingen, die vaak meerdere pagina's besloegen, en gebruikten ze andere grote taalmodellen om ze op te schonen, te verkleinen en te standaardiseren. Ze ontdekten dat deze eenvoudige overstap, van geschreven naar verbale annotatie, veel meer details opleverde met weinig extra moeite.

Kleine modellen, tophonden

De resultaten zijn indrukwekkend.

Volgens een technisch document waarin het werk wordt beschreven, het grootste model van het team, Molmo 72B, evenaart of overtreft de state-of-the-art gesloten modellen, waaronder OpenAI's GPT-4o, Anthropic's Claude 3.5 Sonnet en Google's Gemini 1.5 Pro, in een reeks van 11 academische benchmarks en ook qua gebruikersvoorkeur. Zelfs de kleinere Molmo-modellen, die een tiende van de grootte van de grootste zijn, vergelijken gunstig met state-of-the-art modellen.

Molmo kan ook wijzen op de dingen die het in afbeeldingen identificeert. Dit soort vaardigheid kan ontwikkelaars helpen AI-agenten te bouwen die knoppen of velden op een webpagina identificeren om taken als het maken van een reservering in een restaurant uit te voeren. Of het kan robots helpen objecten in de echte wereld beter te identificeren en ermee te interacteren.

Ai2 CEO Ali Farhadi erkende dat het discutabel is hoeveel benchmarks ons kunnen vertellen. Maar we kunnen ze gebruiken om een ​​ruwe model-tot-model vergelijking te maken.

“Er zijn een dozijn verschillende benchmarks waarop mensen evalueren. Ik vind dit spel niet leuk, wetenschappelijk gezien… maar ik moest mensen een getal laten zien,” Farhadi zei bij een release-evenement in Seattle. "Ons grootste model is een klein model, 72B, het presteert beter dan GPT's en Claudes en Geminis op die benchmarks. Nogmaals, neem het met een korreltje zout; betekent dit dat dit echt beter is dan hen of niet? Ik weet het niet. Maar voor ons betekent het in ieder geval dat dit hetzelfde spel speelt."

Open source AI

Naast dat Molmo kleiner is, is het ook open-source. Dit is belangrijk omdat het betekent dat mensen nu een gratis alternatief hebben voor propriëtaire modellen.

Er zijn andere open modellen die op sommige gebieden beginnen te concurreren met de topmodellen. Meta's Lama 3.1 405B, bijvoorbeeld, is het eerste opgeschaalde open-gewichten grote taalmodel. Maar het is niet multimodaal. (Meta vrijgegeven multimodale versies van zijn kleinere Llama-modellen vorige week. Het kan hetzelfde doen voor zijn grootste model in de komende maanden.)

Molmo is ook opener dan Llama. Meta's modellen worden het best beschreven als “open-gewichten”-modellen, in die zin dat het bedrijf modelgewichten vrijgeeft, maar niet de code of data die in de training worden gebruikt. Het grootste Molmo-model is gebaseerd op Alibaba Cloud's open-weights Qwen2 72B, die net als Llama geen trainingsdata of code bevat, maar Ai2 heeft wel de dataset en code vrijgegeven die ze gebruikten om hun model multimodaal te maken.

Meta beperkt ook commercieel gebruik tot producten met minder dan 700 miljoen gebruikers. Daarentegen, Molmo heeft een Apache 2.0-licentieDit betekent dat ontwikkelaars de modellen kunnen aanpassen en producten met weinig beperkingen op de markt kunnen brengen.

"We richten ons op onderzoekers, ontwikkelaars, app-ontwikkelaars, mensen die niet weten hoe ze met deze [grote] modellen om moeten gaan. Een belangrijk principe bij het targeten van zo'n breed publiek is het belangrijkste principe dat we al een tijdje pushen, namelijk: maak het toegankelijker," Farhadi zei.

Knijpen in de hielen

Er zijn hier een paar opmerkelijke dingen. Ten eerste, terwijl de makers van propriëtaire modellen proberen hun modellen te gelde te maken, komen er open-source alternatieven met vergelijkbare mogelijkheden. Deze alternatieven, zoals Molmo laat zien, zijn ook kleiner, wat betekent dat ze lokaal kunnen worden uitgevoerd, en flexibeler. Ze vormen legitieme concurrentie voor bedrijven die miljarden ophalen met de belofte van AI-producten.

"Een open source, multimodaal model betekent dat elke startup of onderzoeker die een idee heeft, het kan proberen uit te voeren", aldus Ofir Press, een postdoc aan de Princeton University, vertelde Bedraad.

Tegelijkertijd is het werken met afbeeldingen en tekst voor OpenAI en Google ouderwets. De bedrijven trekken weer een voorsprong door geavanceerde spraakmogelijkheden, video generatie en redeneervaardighedenMet miljarden aan nieuwe investeringen en toegang tot een groeiende hoeveelheid kwaliteitsgegevens van deals met uitgevers, de volgende generatie modellen zou de inzet opnieuw kunnen verhogen.

Toch is Molmo van mening dat, zelfs nu de grootste bedrijven miljarden investeren in het opschalen van de technologie, open-sourcealternatieven niet ver weg zullen zijn.

Krediet van het beeld: Database / Unsplash

Gerelateerde artikelen

spot_img

Recente artikelen

spot_img