Zephyrnet-logo

Waarom OpenAI zijn weddenschappen op kwantum-AI zou kunnen afdekken

Datum:

Analyse Quantum computing is al meer dan tien jaar nog geen decennium verwijderd, maar volgens experts uit de industrie zou dit wel eens het geheim kunnen zijn om de onverzadigbare honger van AI te beteugelen.

Met elke maand die voorbijgaat, verschijnen er grotere modellen met meer parameters en wordt de schaal van AI-implementaties tegelijkertijd groter. Alleen al dit jaar zijn hyperscalers zoals Meta van plan implementeren honderdduizenden versnellers. Zelfs nog steeds is OpenAI-oprichter Sam Altman dat overtuigd we zullen exponentieel meer rekenkracht nodig hebben als we AI verder willen ontwikkelen.

Het mag dan ook geen verrassing zijn dat OpenAI met zijn nieuwste aanwinst zou zijn weddenschappen op kwantumcomputers af te dekken als dat mogelijk is. Vorige week voegde de AI-moloch Ben Bartlett, een voormalig kwantumsysteemarchitect bij PsiQuantum, aan zijn gelederen toe.

We hebben contact opgenomen met Open AI om meer te weten te komen over wat Bartlett gaat doen bij de AI-trendsetter, maar hebben nog niets gehoord. Maar de zijne bio biedt enkele hints, aangezien een groot deel van zijn onderzoek zich heeft gericht op het snijvlak tussen kwantumfysica, machinaal leren en nanofotonica, en “bestaat feitelijk uit het ontwerpen van kleine racebanen voor fotonen die hen ertoe verleiden nuttige berekeningen uit te voeren”

Dus wat zou OpenAI precies willen van een kwantumfysicus? Er zijn een aantal mogelijkheden, variërend van het gebruik van kwantumoptimalisatie om trainingsdatasets te stroomlijnen of het gebruik van kwantumverwerkingseenheden (QPU's) om complexe grafische databases te ontlasten, tot het gebruik van optica om verder te schalen dan de grenzen van moderne halfgeleiderverpakkingen.

Neurale netwerken zijn slechts een ander optimalisatieprobleem

Kwantumcomputing heeft het potentieel om de efficiëntie van het trainen van grote AI-modellen drastisch te verbeteren, waardoor ze nauwkeurigere antwoorden kunnen afleiden uit modellen met minder parameters, vertelt Murray Thom van D-Wave Het register.

Omdat GPT-4 naar verluidt meer dan een biljoen parameters bevat, is het niet moeilijk te begrijpen waarom dit aantrekkelijk zou kunnen zijn. Zonder toevlucht te nemen tot kwantisering en andere compressiestrategieën hebben AI-modellen ongeveer 1 GB geheugen nodig voor elke miljard parameters wanneer ze met FP8- of Int8-precisie werken, en met hogere precisies, aanzienlijk meer dan dat.

Biljoen parametermodellen naderen de grenzen van wat een enkele AI-server efficiënt kan verwerken. Meerdere servers kunnen aan elkaar worden gekoppeld om grotere modellen te ondersteunen, maar het verlaten van de box brengt prestatieverlies met zich mee.

En dat is vandaag. En als Altman gelijk heeft, zullen deze modellen alleen maar groter en gangbaarder worden. Als zodanig zou elke technologie die OpenAI de mogelijkheden van zijn modellen zou kunnen laten vergroten zonder ook het aantal parameters op betekenisvolle wijze te verhogen, het een voorsprong kunnen geven.

“Terwijl je een model traint, bepaalt het aantal parameters dat in het model past de kosten en complexiteit van het trainen van het model”, vertelt Trevor Lanting, D-Wave VP software en algoritmen. Het register.

Om dit te omzeilen, legt hij uit, zullen ontwikkelaars vaak functies selecteren waarvan zij denken dat ze het belangrijkst zijn voor het trainen van dat specifieke model, wat op zijn beurt het aantal vereiste parameters vermindert.

Maar in plaats van te proberen dit te doen met behulp van conventionele systemen, stelt D-Wave dat kwantumoptimalisatie-algoritmen effectiever kunnen zijn in het bepalen welke functies wel of niet moeten worden weggelaten.

Als u niet bekend bent: optimalisatieproblemen, zoals die vaak voorkomen bij het vinden van paden of logistiek, zijn tot nu toe een van de meest veelbelovende toepassingen van quantum computing gebleken.

“Waar onze kwantumcomputers echt goed in zijn, is het optimaliseren van dingen waar dingen gebeuren of niet gebeuren: zoals iemand die een bepaald schema toegewezen krijgt of een bepaalde levering toegewezen krijgt,” zei Thom. "Als die beslissingen onafhankelijk zouden zijn, zou dat prima zijn, en dat zou ook gemakkelijk zijn voor een klassieke computer, maar ze beïnvloeden feitelijk de andere bronnen in de pool en er is een soort netwerkeffect."

Met andere woorden: de echte wereld is rommelig. Er kunnen meerdere voertuigen op de weg zijn, wegafsluitingen, weersomstandigheden, enzovoort. Vergeleken met klassieke computers stellen de unieke eigenschappen die inherent zijn aan kwantumcomputers hen in staat deze factoren tegelijkertijd te onderzoeken om de beste route te identificeren.

Dit “is volledig analoog aan een neuraal netwerk waar de neuronen wel of niet vuren, en zij en zij hebben synaptische verbindingen met de andere neuronen, die de andere neuronen prikkelen of ervan weerhouden te vuren”, legt Thom uit.

En dit betekent dat kwantumalgoritmen kunnen worden gebruikt om AI-trainingsdatasets te optimaliseren voor specifieke vereisten, wat, wanneer getraind, resulteert in een slanker en nauwkeuriger model, beweerde Lanting.

Kwantumbemonstering en ontlading

Op de langere termijn zoeken D-Wave en anderen naar manieren om QPU's dieper in het trainingsproces te implementeren.

Een van deze gebruiksscenario's betreft het toepassen van quantum computing op sampling. Sampling verwijst naar de manier waarop AI-modellen, zoals LLM's, bepalen wat het volgende woord, of meer specifiek token, gebaseerd zou moeten zijn op een verdeling van kansen. Dit is de reden waarom er vaak grapjes worden gemaakt dat LLM's alleen maar automatisch worden aangevuld op steroïden.

“De hardware is erg goed in het produceren van samples, en je kunt de distributie afstemmen, zodat je de weging van die samples kunt afstemmen. En wat we onderzoeken is: is dit een goede manier om ‘annealing quantum computing’ daadwerkelijk hard en directer in de trainingswerklast te integreren”, legt Lanting uit.

De Franse quantum computing-startup Pasqal speelt ook met het toepassen van quantum computing om grafiekgestructureerde datasets te ontladen die vaak voorkomen in neurale netwerken.

“Bij machinaal leren is er geen echt eenvoudige manier om de gegevens op klassieke wijze weer te geven, omdat de grafiek een complex object is”, legt Pasqal co-CEO Loïc Henriet uit in een interview met Het register. “Je kunt grafiekgestructureerde data op relatief natuurlijke wijze in de kwantumdynamica inbedden, wat aanleiding geeft tot nieuwe manieren om met die stukjes data om te gaan.”

Voordat dit echter kan worden bereikt, zullen kwantumsystemen een stuk groter en sneller moeten worden, legt Henriet uit.

“Grote datasets zijn op dit moment niet praktisch”, zei hij. “Daarom voeren we het aantal qubits op; de herhalingsfrequentie. Want met meer qubits kun je meer data embedden.”

Hoe lang we zullen moeten wachten voordat kwantumgrafiek-neurale netwerken levensvatbaar worden, is moeilijk te zeggen. Pasqal heeft al een 10,000 qubit-systeem in de werken. Helaas blijkt uit onderzoek dat er meer dan 10,000 foutcorrigerende qubits nodig zijn, of ongeveer een miljoen fysieke qubits alleen al om concurreren met moderne GPU's.

Een siliciumfotonica-spel?

Afgezien van exotische kwantum-AI-gebruiksscenario's zijn er andere technologieën die OpenAI zou kunnen nastreven waarvoor Bartlett toevallig een expert is.

Het meest opvallend is dat Bartletts voormalige werkgever PsiQuantum systemen heeft ontwikkeld op basis van siliciumfotonica. Dit suggereert dat zijn aanstelling verband zou kunnen houden met die van OpenAI gerapporteerd werken aan een aangepaste AI-versneller.

Verschillende startups op het gebied van siliciumfotonica, waaronder Ayar Labs, Lightmatter en Celestial AI, hebben de technologie gepromoot als een middel om bandbreedtelimieten te overwinnen, wat een beperkende factor is geworden bij het opschalen van de prestaties van machine learning.

Het idee hier is dat je met licht veel meer gegevens over een veel langere afstand kunt verzenden dan met een puur elektrisch signaal. In veel van deze ontwerpen wordt het licht feitelijk gedragen door golfgeleiders die in het silicium zijn geëtst, wat heel erg lijkt op ‘het ontwerpen van kleine racebanen voor fotonen’.

Lichtkwestie gelooft deze technologie maakt het mogelijk dat meerdere versnellers als één geheel kunnen functioneren zonder dat er bandbreedteverlies optreedt voor gegevens die de chip verlaten. Ondertussen ziet Celestial een opportuniteit om de hoeveelheid geheugen met hoge bandbreedte die beschikbaar is voor GPU's enorm te vergroten door de noodzaak te elimineren om de modules direct naast de acceleratorchip samen te verpakken. Beide mogelijkheden zouden aantrekkelijk zijn voor een bedrijf dat op grote schaal met AI-systemen werkt.

Of OpenAI uiteindelijk kwantum-AI of siliciumfotonica zal nastreven, valt nog te bezien, maar voor een bedrijf waarvan de oprichter geen onbekende is in het doen van langetermijninvesteringen, zou het niet het vreemdste zijn waar Altman achter staat. ®

spot_img

Laatste intelligentie

spot_img