Zephyrnet-logotyp

Varför OpenAI kan säkra sina satsningar på kvant-AI

Datum:

Analys Quantum computing har varit ett decennium borta i över ett decennium nu, men enligt branschexperter kan det ha hemligheten att dämpa AI:s omättliga aptit.

För varje månad som går dyker större, mer parametertäta modeller upp och omfattningen av AI-implementeringar expanderar i takt. Bara i år planerar hyperskalare som Meta att distribuera hundratusentals acceleratorer. Till och med fortfarande OpenAI-grundaren Sam Altman är det övertygad vi kommer att behöva exponentiellt mer beräkning om vi ska vidareutveckla AI.

Därför borde det inte komma som någon överraskning att med sin senaste anställning, OpenAI skulle säkra sina satsningar på kvantberäkningar om chansen det kan. Förra veckan lade AI-juggernauten till Ben Bartlett, en före detta kvantsystemarkitekt på PsiQuantum till sina led.

Vi tog kontakt med Open AI för att ta reda på mer om vad Bartlett kommer att göra på AI-trendsättaren, och har inte hört tillbaka. Dock hans bio ger några tips eftersom mycket av hans forskning har fokuserat på skärningspunkten mellan kvantfysik, maskininlärning och nanofotonik, och "består i princip av att jag designar små racerbanor för fotoner som lurar dem att göra användbara beräkningar"

Så vad exakt kan OpenAI vilja med en kvantfysiker? Tja, det finns ett par möjligheter, allt från att använda kvantoptimering för att effektivisera träningsdatauppsättningar eller att använda kvantbehandlingsenheter (QPU) för att ladda ner komplexa grafdatabaser, till att använda optik för att skala bortom gränserna för moderna halvledarpaketering.

Neurala nätverk är bara ytterligare ett optimeringsproblem

Quantum computing har potential att drastiskt förbättra effektiviteten i att träna stora AI-modeller, vilket gör att de kan få mer exakta svar från modeller med färre parametrar, säger Murray Thom från D-Wave. Registret.

Med rykten om att GPT-4 överstiger en biljon parametrar är det inte svårt att se varför detta kan vara attraktivt. Utan att tillgripa kvantisering och andra komprimeringsstrategier behöver AI-modeller ungefär 1 GB minne för varje miljard parametrar när de körs med FP8- eller Int8-precision och med högre precision, betydligt mer än så.

Biljoner parametermodeller närmar sig gränserna för vad en enskild AI-server effektivt kan ta emot. Flera servrar kan sättas ihop för att stödja större modeller, men att lämna lådan innebär en prestationsstraff.

Och det är idag. Och om Altman har rätt kommer dessa modeller bara att bli större och vanligare. Som sådan kan vilken teknik som helst som kan låta OpenAI öka kapaciteten hos sina modeller utan att också öka parameterantalet på ett meningsfullt sätt ge det ett steg upp.

"När du tränar en modell driver antalet parametrar som ingår i modellen verkligen kostnaden och komplexiteten för att träna modellen", säger Trevor Lanting, D-Wave VP för mjukvara och algoritmer. Registret.

För att komma runt detta, förklarar han, kommer utvecklare ofta att undervälja funktioner som de tror kommer att vara de viktigaste för att träna just den modellen, vilket i sin tur minskar antalet parametrar som krävs.

Men snarare än att försöka göra detta med konventionella system, hävdar D-Wave att kvantoptimeringsalgoritmer kan vara mer effektiva för att avgöra vilka funktioner som ska lämnas in eller ut.

Om du inte är bekant har optimeringsproblem, som de som vanligtvis ses inom sökvägssökning eller logistik, visat sig vara en av de mest lovande tillämpningarna av kvantberäkning hittills.

"Vad våra kvantdatorer är riktigt bra på är att optimera saker där saker antingen händer eller inte händer: som att någon tilldelas ett visst schema eller tilldelas en viss leverans," sa Thom. "Om dessa beslut var oberoende, skulle det vara bra, och det skulle vara lätt för en klassisk dator att göra, men de påverkar faktiskt de andra resurserna i poolen och det finns en slags nätverkseffekt."

Med andra ord är den verkliga världen rörig. Det kan finnas flera fordon på vägen, avstängda vägar, väderhändelser och så vidare och så vidare. Jämfört med klassiska datorer tillåter kvantdatorernas unika egenskaper att de kan utforska dessa faktorer samtidigt för att identifiera den bästa vägen.

Detta "är helt analogt med ett neuralt nätverk där neuronerna antingen skjuter eller inte skjuter, och de och de har synaptiska kopplingar till de andra neuronerna, som antingen exciterar eller hämmar de andra neuronerna från att skjuta", förklarar Thom.

Och detta betyder att kvantalgoritmer kan användas för att optimera AI-träningsdatauppsättningar för specifika krav, som när de tränas resulterar i en smalare, mer exakt modell, hävdade Lanting.

Kvantprovtagning och avlastning

På längre sikt letar D-Wave och andra efter sätt att implementera QPUs djupare i träningsprocessen.

Ett av dessa användningsfall handlar om att tillämpa kvantberäkning på sampling. Sampling hänvisar till hur AI-modeller, som LLMs, bestämmer vad nästa ord, eller mer specifikt token, ska baseras på en fördelning av sannolikheter. Det är därför det ofta skämtas om att LLM:er bara är autokompletterande på steroider.

"Hårdvaran är väldigt bra på att producera prover, och du kan justera distributionen så att du kan justera viktningen av dessa prover. Och vad vi undersöker är: är detta ett bra sätt att faktiskt infoga glödgningskvantumdatorer hårt och mer direkt i träningsbelastningen, förklarade Lanting.

Franska kvantdatorstartupen Pasqal har också lekt med att tillämpa kvantdatorer för att ladda ner grafstrukturerade datamängder som vanligtvis finns i neurala nätverk.

"Inom maskininlärning finns det inget riktigt enkelt sätt att representera data klassiskt, eftersom grafen är ett komplext objekt," förklarade Pasqal Co-VD Loïc Henriet i en intervju med Registret. "Du kan bädda in grafisk strukturerad data i kvantdynamik relativt naturligt, vilket ger upphov till några nya sätt att behandla dessa databitar."

Men innan detta kan uppnås, kommer kvantsystem att behöva bli mycket större och mycket snabbare, förklarade Henriet.

"Stora datauppsättningar är inte praktiska för tillfället," sa han. "Det är därför vi pressar antalet qubits; upprepningsfrekvensen. För med fler qubits kan du bädda in mer data."

Hur länge vi måste vänta innan kvantgrafens neurala nätverk blir livskraftiga är svårt att säga. Pasqal har redan ett 10,000 XNUMX qubit-system i arbetena. Tyvärr tyder forskning på att det kommer att ta mer än 10,000 XNUMX felkorrigerande qubits, eller ungefär en miljon fysiska qubits bara för att konkurrera med moderna GPU:er.

Ett kiselfotonikspel?

Bortsett från exotiska kvant-AI-användningsfall finns det andra tekniker som OpenAI kan ägna sig åt som Bartlett bara råkar vara expert på.

Framför allt har Bartletts tidigare arbetsgivare PsiQuantum utvecklat system baserade på kiselfotonik. Detta tyder på att hans anställning kan vara relaterad till OpenAI:s rapporterade arbeta med en anpassad AI-accelerator.

Flera kiselfotonikstarter, inklusive Ayar Labs, Lightmatter och Celestial AI, har drivit tekniken som ett sätt att övervinna bandbreddsbegränsningar, vilket har blivit en begränsande faktor för skalning av maskininlärningsprestanda.

Tanken här är att du kan skicka mycket mer data över en mycket längre sträcka med ljus än vad du kan med en rent elektrisk signal. I många av dessa konstruktioner bärs ljuset faktiskt av vågledare etsade in i kislet, vilket låter väldigt mycket som att "designa små racerbanor för fotoner."

Ljusfråga tror den här tekniken kommer att tillåta flera acceleratorer att fungera som en utan att medföra en bandbreddsstraff för data som lämnar chippet. Under tiden ser Celestial en möjlighet att avsevärt öka mängden högbandsminne tillgängligt för GPU:er genom att eliminera behovet av att sampaketera modulerna direkt intill acceleratorn. Båda dessa funktioner skulle vara attraktiva för ett företag som arbetar med AI-system i stor skala.

Om OpenAI i slutändan kommer att bedriva kvant-AI eller kiselfotonik återstår att se, men för ett företag vars grundare inte är främmande för att göra långsiktiga investeringar skulle det inte vara det konstigaste Altman har stött. ®

plats_img

Senaste intelligens

plats_img