Zephyrnet-logotyp

Nvidia: I framtiden är programvaran bara en samling LLM:er

Datum:

Strunt i att använda stora språkmodeller (LLM) för att hjälpa till att skriva kod, Nvidias VD Jensen Huang tror att i framtiden kommer företagsmjukvaran bara att vara en samling chattrobotar som är sammansatta för att slutföra uppgiften.

"Det är osannolikt att du kommer att skriva det från början eller skriva en hel massa Python-kod eller något liknande," sa han på scenen under sin GTC keynote måndag. "Det är mycket troligt att du sätter ihop ett team av AI."

Detta AI-team, förklarar Jensen, kan inkludera en modell utformad för att bryta ner och delegera en förfrågan till olika andra modeller. Vissa av dessa modeller kan tränas för att förstå företagstjänster som SAP eller Service Now, medan andra kan utföra numerisk analys av data som lagras i en vektordatabas. Dessa data kan sedan kombineras och presenteras för slutanvändaren av ännu en modell.

"Vi kan få en rapport varje dag eller du vet, högst upp på timmen som har något att göra med en byggplan, eller någon prognos, eller någon kundvarning, eller någon buggdatabas eller vad det nu råkar vara," förklarade han

För att koppla ihop alla dessa modeller tar Nvidia en sida ur Dockers bok och har skapat en containerruntime för AI.

Dubbade Nvidia Inference Microservices, eller NIM för kort, är dessa i huvudsak containerbilder som innehåller både modellen, oavsett om det är öppen källkod eller proprietär, tillsammans med alla beroenden som krävs för att få den att köras. Dessa containeriserade modeller kan sedan distribueras över valfritt antal körtider, inklusive Nvidia-accelererade Kubernetes-noder.

"Du kan distribuera det på vår infrastruktur som heter DGX Cloud, eller så kan du distribuera det på förhand, eller så kan du distribuera det var du vill. När du väl utvecklat det är det ditt att ta vart som helst”, sa Jensen.

Naturligtvis behöver du först en prenumeration på Nvidias AI Enterprise-svit, vilket inte är direkt billigt för $4,500 1/år per GPU eller $40/timme per GPU i molnet. Denna prissättningsstrategi verkar ge incitament till tätare system med högre prestanda i allmänhet eftersom det kostar lika mycket oavsett om du kör på LXNUMXs eller B100s.

Om tanken på att behålla GPU-accelererade arbetsbelastningar låter bekant, är detta inte precis en ny idé för Nvidia. CUDA acceleration har varit uppburen på en mängd olika containerkörningstider, inklusive Docker, Podman, Containerd eller CRI-O i åratal, och det ser inte ut som att Nvidias Container Runtime kommer någonstans.

Värdeförslaget bakom NIM verkar vara att Nvidia kommer att hantera paketeringen och optimeringen av dessa modeller så att de har rätt version av CUDA, Triton Inference Server eller TensorRT LLM, nödvändig för att få ut den bästa prestandan ur dem.

Argumentet är att om Nvidia släpper en uppdatering som dramatiskt ökar slutledningsprestandan för vissa modelltyper, skulle dra nytta av den funktionen bara kräva att man drar ner den senaste NIM-bilden.

Förutom hårdvaruspecifika modelloptimeringar arbetar Nvidia också på att möjliggöra konsekvent kommunikation mellan behållare, så att de kan chatta med varandra, via API-anrop.

Som vi förstår det är API-anropen som används av de olika AI-modellerna på marknaden idag inte alltid konsekventa, vilket resulterar i att det är lättare att sätta ihop vissa modeller och medan andra kan kräva ytterligare arbete.

Låna ut institutionell kunskap till modeller för allmänna ändamål

Alla som har använt en AI-chatbot vet att även om de vanligtvis är ganska bra med allmänna kunskapsfrågor, är de inte alltid de mest pålitliga med oklara eller tekniska förfrågningar.

Jensen lyfte fram detta faktum under sin keynote. På frågan om ett internt program som används inom Nvidia, gav Metas stora språkmodell Llama 2 70B föga överraskande definitionen av en icke-relaterad term.

Istället för att försöka få företag att träna sina egna modeller – något som skulle sälja många GPU:er men skulle begränsa den adresserbara marknaden avsevärt – har Nvidia utvecklat verktyg för att finjustera sina NIM med kunddata och processer.

"Vi har en tjänst som heter NeMo Microservices som hjälper dig att kurera data, förbereda data så att du kan... ombord på denna AI. Du finjusterar den och sedan skyddar du den; du kan sedan utvärdera... dess prestanda mot andra andra exempel”, förklarade Huang.

Han pratade också om Nvidias NeMo Retriever-tjänst som är baserad på konceptet att använda retrieval augmented generation (RAG) för att få fram information som modellen inte har tränats specifikt på.

Tanken här är att dokument, processer och annan data kan laddas in i en vektordatabas som är kopplad till modellen. Baserat på en fråga kan modellen sedan söka i databasen, hämta och sammanfatta relevant information.

NIM-modeller och NeMo Retriever för att integrera RAG är tillgängliga nu, medan NeMo Microservices är i tidig tillgång. ®

plats_img

VC Café

VC Café

Senaste intelligens

plats_img