Zephyrnet-logo

Nvidia: I fremtiden er programvare bare en samling av LLM-er

Dato:

Ikke bry deg om å bruke store språkmodeller (LLM-er) for å hjelpe med å skrive kode, Nvidia-sjef Jensen Huang tror at i fremtiden vil enterprise-programvare bare være en samling chat-bots satt sammen for å fullføre oppgaven.

"Det er usannsynlig at du vil skrive det fra bunnen av eller skrive en hel haug med Python-kode eller noe sånt," sa han på scenen under sin GTC keynote Mandag. "Det er veldig sannsynlig at du setter sammen et team med AI."

Dette AI-teamet, forklarer Jensen, kan inkludere en modell designet for å bryte ned og delegere en forespørsel til forskjellige andre modeller. Noen av disse modellene kan være opplært til å forstå forretningstjenester som SAP eller Service Now, mens andre kan utføre numerisk analyse av data som er lagret i en vektordatabase. Disse dataene kan deretter kombineres og presenteres for sluttbrukeren av enda en modell.

"Vi kan få en rapport hver eneste dag, eller du vet, toppen av timen som har noe å gjøre med en byggeplan, eller en prognose, eller et kundevarsel, eller en feildatabase eller hva det måtte være," forklarte han

For å lenke alle disse modellene sammen, tar Nvidia en side ut av Dockers bok og har laget en container-runtime for AI.

Kalt Nvidia Inference Microservices, eller NIM for kort, er disse i hovedsak containerbilder som inneholder både modellen, enten det er åpen kildekode eller proprietær, sammen med alle avhengighetene som er nødvendige for å få den til å kjøre. Disse containeriserte modellene kan deretter distribueres over et hvilket som helst antall kjøretider, inkludert Nvidia-akselererte Kubernetes-noder.

"Du kan distribuere den på vår infrastruktur kalt DGX Cloud, eller du kan distribuere den på forhånd, eller du kan distribuere den hvor som helst du vil. Når du først har utviklet det, er det ditt å ta hvor som helst, sa Jensen.

Selvfølgelig trenger du et abonnement på Nvidias AI Enterprise-suite først, som ikke er akkurat billig til $4,500/år per GPU eller $1/time per GPU i skyen. Denne prisstrategien ser ut til å stimulere til tettere systemer med høyere ytelse generelt siden den koster det samme uansett om du kjører på L40s eller B100s.

Hvis ideen om å beholde GPU-akselererte arbeidsbelastninger høres kjent ut, er ikke dette akkurat en ny idé for Nvidia. CUDA-akselerasjon har vært støttes på et bredt utvalg av containerkjøringstider, inkludert Docker, Podman, Containerd eller CRI-O i årevis, og det ser ikke ut til at Nvidias Container Runtime går noe sted.

Verdiforslaget bak NIM ser ut til å være at Nvidia vil håndtere pakking og optimalisering av disse modellene slik at de har riktig versjon av CUDA, Triton Inference Server eller TensorRT LLM, nødvendig for å få best mulig ytelse ut av dem.

Argumentet er at hvis Nvidia gir ut en oppdatering som dramatisk øker slutningsytelsen til visse modelltyper, vil det å dra nytte av denne funksjonaliteten bare kreve å trekke ned det siste NIM-bildet.

I tillegg til maskinvarespesifikke modelloptimaliseringer, jobber Nvidia også med å muliggjøre konsistent kommunikasjon mellom containere, slik at de kan chatte med hverandre, via API-kall.

Slik vi forstår det, er API-kallene som brukes av de forskjellige AI-modellene på markedet i dag, ikke alltid konsistente, noe som resulterer i at det er lettere å sette sammen noen modeller og mens andre kan kreve ekstra arbeid.

Utlån av institusjonell kunnskap til generelle formålsmodeller

Alle som har brukt en AI-chatbot vil vite at selv om de vanligvis er ganske gode med generelle kunnskapsspørsmål, er de ikke alltid de mest pålitelige med obskure eller tekniske forespørsler.

Jensen fremhevet dette under sin keynote. På spørsmål om et internt program brukt i Nvidia, ga Metas Llama 2 70B store språkmodell ikke overraskende definisjonen til et ikke-relatert begrep.

I stedet for å prøve å få bedrifter til å trene opp sine egne modeller – noe som vil selge mange GPUer, men som vil begrense det adresserbare markedet betraktelig – har Nvidia utviklet verktøy for å finjustere NIM-ene sine med kundedata og prosesser.

"Vi har en tjeneste kalt NeMo Microservices som hjelper deg å kurere dataene, forberede dataene slik at du kan... ombord på denne AI. Du finjusterer den og så beskytter du den; du kan deretter vurdere... ytelsen opp mot andre eksempler,» forklarte Huang.

Han snakket også om Nvidias NeMo Retriever-tjeneste som er basert på konseptet med å bruke gjenfinning augmented generasjon (RAG) for å fremkomme med informasjon som modellen ikke er spesifikt trent på.

Tanken her er at dokumenter, prosesser og andre data kan lastes inn i en vektordatabase som er koblet til modellen. Basert på en spørring kan modellen deretter søke i databasen, hente og oppsummere relevant informasjon.

NIM-modeller og NeMo Retriever for integrering av RAG-er er tilgjengelig nå, mens NeMo Microservices er i tidlig tilgang. ®

spot_img

VC kafé

VC kafé

Siste etterretning

spot_img