Zephyrnet-logotyp

Vad händer när AI-prestandaasymptoter? av @ttunguz

Datum:

Tidigare, ju större AI-modellen var, desto bättre prestanda. Över OpenAI:s modeller har till exempel parametrarna vuxit med 1000x+ och prestandan har nästan tredubblats.

OpenAI-modell Utgivningsdatum Parametrar, B MMLU
GPT2 2/14/19 1.5 0.324
GPT3 6/11/20 175 0.539
GPT3.5 3/15/22 175 0.7
GPT4 3/14/23 1760 0.864

Men modellprestandan kommer snart att asymptota – åtminstone på detta mått.

bild

Detta är en diagram över många nyare AI-modellers prestanda enligt ett allmänt accepterat riktmärke som kallas MMLU. 1 MMLU mäter prestandan hos en AI-modell jämfört med en gymnasieelev.

Jag har kategoriserat modellerna så här:

  • Stor: > 100 miljarder parametrar
  • Medium: 15 till 100b parametrar
  • Liten : < 15b parametrar

Med tiden konvergerar prestandan snabbt både över modellstorlekar och mellan modellleverantörerna.

Vad händer när Facebooks modell med öppen källkod och Googles modell med stängd källkod som driver Google.com och OpenAIs modeller som driver ChatGPT alla fungerar lika bra?

Datavetare har utmanats att särskilja dessa modellers relativa prestanda med många olika tester. Användare kommer att bli hårt pressade att göra bättre ifrån sig.

Vid den tidpunkten bör värdet i modelllagret kollapsa. Om en fritt tillgänglig modell med öppen källkod är lika bra som en betald, varför inte använda den gratis? Och om en mindre, billigare modell med öppen källkod är nästan lika bra, varför inte använda den?

Den snabba tillväxten av AI har lett till ett ökat intresse för själva modellerna. Men ganska snabbt borde infrastrukturlagret commoditisera, precis som det gjorde i molnet där tre leverantörer har 65 % marknadsandel: Amazon Web Services, Azure och Google Cloud Platform.

Applikationerna och utvecklarverktygen kring de massiva AI-råvarumäklarna är nästa utvecklingsfas – där produktdifferentiering och distribution skiljer åt snarare än briljanta, råa tekniska framsteg.2


1 MMLU mäter 57 olika uppgifter inklusive matematik, historia, datavetenskap och andra ämnen. Det är ett mått av många och det är inte perfekt – som vilket riktmärke som helst. Det finns andra inklusive Elo-systemet. Här är en överblick över skillnaderna.. Varje benchmark graderar modellen på ett annat spektrum: bias,
matematiska resonemang är två andra exempel.

plats_img

Senaste intelligens

plats_img