Zephyrnet-logo

Wat gebeurt er als AI-prestaties asymptoten vertonen? door @ttunguz

Datum:

In het verleden geldt: hoe groter het AI-model, hoe beter de prestaties. In de modellen van OpenAI zijn de parameters bijvoorbeeld met meer dan 1000x gegroeid en zijn de prestaties bijna verdrievoudigd.

OpenAI-model Release Date Parameters, B MMLU
GPT2 2/14/19 1.5 0.324
GPT3 6/11/20 175 0.539
GPT3.5 3/15/22 175 0.7
GPT4 3/14/23 1760 0.864

Maar de prestaties van het model zullen binnenkort asymptoot zijn – althans op deze maatstaf.

beeld

Dit is een grafiek van de prestaties van veel recente AI-modellen volgens een algemeen aanvaarde benchmark genaamd MMLU. 1 MMLU meet de prestaties van een AI-model vergeleken met een middelbare scholier.

Ik heb de modellen als volgt gecategoriseerd:

  • Groot: > 100 miljard parameters
  • Gemiddeld: 15 tot 100b parameters
  • Klein: < 15b parameters

In de loop van de tijd convergeren de prestaties snel, zowel tussen modelgroottes als tussen modelleveranciers.

Wat gebeurt er als het open-sourcemodel van Facebook en het gesloten-sourcemodel van Google, dat de basis vormt voor Google.com, en de modellen van OpenAI, die ChatGPT aandrijven, allemaal even goed werken?

Computerwetenschappers zijn met veel verschillende tests uitgedaagd om de relatieve prestaties van deze modellen te onderscheiden. Gebruikers zullen moeite hebben om het beter te doen.

Op dat punt zou de waarde in de modellaag moeten samenvallen. Als een gratis beschikbaar open source-model net zo goed is als een betaald model, waarom zou je dan niet het gratis model gebruiken? En als een kleiner, goedkoper te gebruiken open-sourcemodel bijna net zo goed is, waarom zouden we dat dan niet gebruiken?

De snelle groei van AI heeft geleid tot een enorme belangstelling voor de modellen zelf. Maar vrij snel zou de infrastructuurlaag zich tot een commodity moeten ontwikkelen, net zoals dat gebeurde in de cloud, waar drie leveranciers een marktaandeel van 65% in handen hebben: Amazon Web Services, Azure en Google Cloud Platform.

De applicaties en de ontwikkelaarstools rond de enorme AI-grondstofmakelaars vormen de volgende ontwikkelingsfase – waarin productdifferentiatie en distributie differentiëren in plaats van briljante, ruwe technische vooruitgang.2


1 MMLU meet 57 verschillende taken inclusief wiskunde, geschiedenis, informatica en andere onderwerpen. Het is één van de vele maatstaven en het is niet perfect – zoals elke benchmark. Er zijn anderen, waaronder het Elo-systeem. Hier is een overzicht van de verschillen.. Elke benchmark beoordeelt het model op een ander spectrum: bias,
wiskundig redeneren zijn twee andere voorbeelden.

spot_img

Laatste intelligentie

spot_img