Zephyrnet-logo

En ny fotonisk databrikke bruker lys for å redusere AI-energikostnadene

Dato:

AI-modeller er kraftsvin.

Etter hvert som algoritmene vokser og blir mer komplekse, belaster de i økende grad dagens databrikker. Flere selskaper har designet brikker skreddersydd for AI for å redusere strømforbruket. Men de er alle basert på en grunnleggende regel - de bruker strøm.

Denne måneden endret et team fra Tsinghua University i Kina oppskriften. De bygget en nevrale nettverksbrikke som bruker lys i stedet for strøm til å kjøre AI-oppgaver til en brøkdel av energikostnaden NVIDIAs H100, en state-of-the-art chip som brukes til å trene og kjøre AI-modeller.

Kalt Taichi, kombinerer brikken to typer lysbasert prosessering i sin interne struktur. Sammenlignet med tidligere optiske brikker, Taichi er langt mer nøyaktig for relativt enkle oppgaver som å gjenkjenne håndskrevne tall eller andre bilder. I motsetning til forgjengerne, kan brikken også generere innhold. Den kan lage grunnleggende bilder i en stil basert på for eksempel den nederlandske artisten Vincent van Gogh, eller klassiske musikalnumre inspirert av Johann Sebastian Bach.

En del av Taichis effektivitet skyldes strukturen. Brikken er laget av flere komponenter kalt chiplets. I likhet med hjernens organisasjon, utfører hver brikke sine egne beregninger parallelt, resultatene av disse blir deretter integrert med de andre for å komme frem til en løsning.

Står overfor et utfordrende problem med å skille bilder over 1,000 kategorier, var Taichi vellykket nesten 92 prosent av tiden, og matchet nåværende brikkeytelse, men kuttet energiforbruket over tusen ganger.

For AI, "er trenden med å håndtere mer avanserte oppgaver irreversibel," skrev forfatterne. "Taichi baner vei for storskala fotonisk [lysbasert] databehandling," som fører til mer fleksibel AI med lavere energikostnader.

Chip på skulderen

Dagens databrikker passer ikke godt sammen med AI.

En del av problemet er strukturelt. Behandling og minne på tradisjonelle brikker er fysisk atskilt. Flytting av data mellom dem tar opp enorme mengder energi og tid.

Selv om det er effektivt for å løse relativt enkle problemer, er oppsettet utrolig strømkrevende når det kommer til kompleks AI, som de store språkmodellene som driver ChatGPT.

Hovedproblemet er hvordan databrikker er bygget. Hver beregning er avhengig av transistorer, som slås på eller av for å representere 0-ene og 1-ene som brukes i beregninger. Ingeniører har dramatisk krympet transistorer i løpet av tiårene slik at de kan stappe stadig mer på brikker. Men nåværende brikketeknologi går mot et bristepunkt hvor vi ikke kan gå mindre.

Forskere har lenge forsøkt å fornye nåværende brikker. En strategi inspirert av hjernen er avhengig av "synapser" - den biologiske "dokken" som forbinder nevroner - som beregner og lagrer informasjon på samme sted. Disse hjerneinspirerte, eller nevromorfe, brikkene reduserer energiforbruket og fremskynder beregningene. Men som nåværende brikker er de avhengige av elektrisitet.

En annen idé er å bruke en helt annen datamekanisme: lys. "Photonic computing" er "tiltrekker stadig økende oppmerksomhet," skrev forfatterne. I stedet for å bruke elektrisitet, kan det være mulig å kapre lyspartikler for å drive AI med lysets hastighet.

La det bli lys

Sammenlignet med elektrisitetsbaserte brikker, bruker lys langt mindre strøm og kan samtidig takle flere beregninger. Ved å benytte disse egenskapene har forskere bygget optiske nevrale nettverk som bruker fotoner – partikler av lys – for AI-brikker, i stedet for elektrisitet.

Disse sjetongene kan fungere på to måter. I den ene sprer brikker lyssignaler inn i konstruerte kanaler som til slutt kombinerer strålene for å løse et problem. Kalt diffraksjon, disse optiske nevrale nettverkene pakker kunstige nevroner tett sammen og minimerer energikostnadene. Men de kan ikke enkelt endres, noe som betyr at de bare kan fungere på et enkelt enkelt problem.

Et annet oppsett avhenger av en annen egenskap ved lys kalt interferens. Som havbølger kombinerer lysbølger og opphever hverandre. Når de er inne i mikrotunneler på en brikke, kan de kollidere for å øke eller hemme hverandre - disse interferensmønstrene kan brukes til beregninger. Brikker basert på interferens kan enkelt rekonfigureres ved hjelp av en enhet som kalles et interferometer. Problemet er at de er fysisk klumpete og bruker tonnevis med energi.

Så er det problemet med nøyaktighet. Selv i de skulpturerte kanalene som ofte brukes til interferenseksperimenter, spretter og spretter lyset, noe som gjør beregningene upålitelige. For et enkelt optisk nevralt nettverk er feilene tolerable. Men med større optiske nettverk og mer sofistikerte problemer, stiger støy eksponentielt og blir uholdbar.

Dette er grunnen til at lysbaserte nevrale nettverk ikke lett kan skaleres opp. Så langt har de bare vært i stand til å løse grunnleggende oppgaver, som å gjenkjenne tall eller vokaler.

"Å forstørre skalaen til eksisterende arkitekturer ville ikke proporsjonalt forbedre ytelsene," skrev teamet.

Double Trouble

Den nye AI, Taichi, kombinerte de to egenskapene for å presse optiske nevrale nettverk mot virkelig bruk.

I stedet for å konfigurere et enkelt nevralt nettverk, brukte teamet en chiplet-metode, som delegerte forskjellige deler av en oppgave til flere funksjonelle blokker. Hver blokk hadde sine egne styrker: En ble satt opp for å analysere diffraksjon, som kunne komprimere store datamengder i løpet av kort tid. En annen blokk ble innebygd med interferometre for å gi interferens, slik at brikken enkelt kan rekonfigureres mellom oppgavene.

Sammenlignet med dyp læring, tok Taichi en "grunn" tilnærming der oppgaven er spredt over flere chiplets.

Med standard dyplæringsstrukturer har feil en tendens til å samle seg over lag og tid. Dette oppsettet tar tak i problemer som kommer fra sekvensiell behandling. Når han står overfor et problem, fordeler Taichi arbeidsmengden på tvers av flere uavhengige klynger, noe som gjør det lettere å takle større problemer med minimale feil.

Strategien ga resultater.

Taichi har beregningskapasiteten til totalt 4,256 kunstige nevroner, med nesten 14 millioner parametere som etterligner hjerneforbindelsene som koder for læring og minne. Når du sorterte bilder i 1,000 kategorier, var den fotoniske brikken nesten 92 prosent nøyaktig, sammenlignbar med "for tiden populære elektroniske nevrale nettverk," skrev teamet.

Brikken utmerket seg også i andre standard AI-bildegjenkjenningstester, for eksempel å identifisere håndskrevne tegn fra forskjellige alfabeter.

Som en siste test utfordret teamet den fotoniske AI til å forstå og gjenskape innhold i stil med forskjellige artister og musikere. Når de ble trent med Bachs repertoar, lærte AI etter hvert tonehøyden og den generelle stilen til musikeren. Tilsvarende bilder fra van Gogh eller Edvard Munch - kunstneren bak det berømte maleriet, Skrik— matet inn i AI-en tillot den å generere bilder i lignende stil, selv om mange så ut som småbarns rekreasjon.

Optiske nevrale nettverk har fortsatt mye lenger å gå. Men hvis de brukes bredt, kan de være et mer energieffektivt alternativ til dagens AI-systemer. Taichi er over 100 ganger mer energieffektiv enn tidligere iterasjoner. Men brikken krever fortsatt lasere for strøm- og dataoverføringsenheter, som er vanskelige å kondensere.

Deretter håper teamet å integrere lett tilgjengelige minilasere og andre komponenter i en enkelt, sammenhengende fotonisk brikke. I mellomtiden håper de Taichi vil «akselerere utviklingen av kraftigere optiske løsninger» som til slutt kan føre til «en ny æra» med kraftig og energieffektiv AI.

Bilde Credit: spainter_vfx / Shutterstock.com

spot_img

Siste etterretning

spot_img