Zephyrnet-logo

Nvidia: In de toekomst is software slechts een verzameling LLM's

Datum:

Afgezien van het gebruik van grote taalmodellen (LLM's) om code te helpen schrijven, gelooft Jensen Huang, CEO van Nvidia, dat bedrijfssoftware in de toekomst slechts een verzameling chatbots zal zijn die aan elkaar zijn geregen om de taak te voltooien.

"Het is onwaarschijnlijk dat je het helemaal opnieuw zult schrijven of een hele reeks Python-code of iets dergelijks zult schrijven", zei hij op het podium tijdens zijn GTC grondtoon Maandag. “Het is zeer waarschijnlijk dat je een team van AI samenstelt.”

Dit AI-team, legt Jensen uit, zou een model kunnen bevatten dat is ontworpen om een ​​verzoek op te splitsen en te delegeren aan verschillende andere modellen. Sommige van deze modellen kunnen worden getraind om zakelijke services zoals SAP of Service Now te begrijpen, terwijl andere mogelijk numerieke analyses uitvoeren op gegevens die zijn opgeslagen in een vectordatabase. Deze gegevens kunnen vervolgens door weer een ander model worden gecombineerd en aan de eindgebruiker worden gepresenteerd.

“We kunnen elke dag een rapport krijgen, of je weet wel, op elk uur dat iets te maken heeft met een bouwplan, of een voorspelling, of een klantwaarschuwing, of een database met bugs of wat het ook is”, legde hij uit.

Om al deze modellen aan elkaar te koppelen, haalt Nvidia een pagina uit het boek van Docker en heeft een containerruntime voor AI gemaakt.

Deze worden Nvidia Inference Microservices genoemd, of kortweg NIM, dit zijn in wezen containerimages die zowel het model bevatten, of het nu open source of propriëtair is, samen met alle afhankelijkheden die nodig zijn om het werkend te krijgen. Deze gecontaineriseerde modellen kunnen vervolgens worden ingezet over een willekeurig aantal runtimes, inclusief Nvidia-versnelde Kubernetes-nodes.

“Je kunt het inzetten op onze infrastructuur genaamd DGX Cloud, of je kunt het op locatie inzetten, of je kunt het overal inzetten waar je maar wilt. Als je het eenmaal hebt ontwikkeld, kun je het overal mee naartoe nemen”, aldus Jensen.

Natuurlijk heb je eerst een abonnement op Nvidia's AI Enterprise-suite nodig, wat niet bepaald goedkoop is met $ 4,500/jaar per GPU of $ 1/uur per GPU in de cloud. Deze prijsstrategie lijkt in het algemeen dichtere systemen met hogere prestaties te stimuleren, omdat deze hetzelfde kosten, ongeacht of u op L40's of op B100's.

Als het idee van het containeriseren van GPU-versnelde workloads bekend klinkt, is dit niet bepaald een nieuw idee voor Nvidia. CUDA-versnelling is geweest ondersteund op een breed scala aan containerruntimes, waaronder Docker, Podman, Containerd of CRI-O, al jaren, en het ziet er niet naar uit dat Nvidia's Container Runtime ergens heen gaat.

De waardepropositie achter NIM lijkt te zijn dat Nvidia de verpakking en optimalisatie van deze modellen zal verzorgen, zodat ze over de juiste versie van CUDA, Triton Inference Server of TensorRT LLM beschikken, die nodig is om er de beste prestaties uit te halen.

Het argument is dat als Nvidia een update uitbrengt die de inferentieprestaties van bepaalde modeltypen dramatisch verbetert, het profiteren van die functionaliteit alleen maar het verwijderen van de nieuwste NIM-image zou vereisen.

Naast hardwarespecifieke modeloptimalisaties werkt Nvidia ook aan het mogelijk maken van consistente communicatie tussen containers, zodat ze met elkaar kunnen chatten via API-aanroepen.

Zoals wij het begrijpen, zijn de API-aanroepen die door de verschillende AI-modellen op de markt worden gebruikt niet altijd consistent, waardoor het gemakkelijker is om sommige modellen aan elkaar te rijgen, terwijl andere mogelijk extra werk vergen.

Het lenen van institutionele kennis aan modellen voor algemene doeleinden

Iedereen die een AI-chatbot heeft gebruikt, weet dat ze, hoewel ze meestal redelijk goed zijn met algemene kennisvragen, niet altijd het meest betrouwbaar zijn met obscure of technische verzoeken.

Jensen benadrukte dit feit tijdens zijn keynote. Gevraagd naar een intern programma dat binnen Nvidia wordt gebruikt, gaf Meta's Llama 2 70B grote taalmodel niet verrassend de definitie van een niet-gerelateerde term.

In plaats van te proberen bedrijven hun eigen modellen te laten trainen – iets dat veel GPU’s zou verkopen maar de bereikbare markt aanzienlijk zou beperken – heeft Nvidia tools ontwikkeld om zijn NIM’s te verfijnen met klantgegevens en -processen.

“We hebben een service genaamd NeMo Microservices die u helpt bij het beheren van de gegevens, het voorbereiden van de gegevens zodat u… deze AI kunt inbouwen. Je stelt het nauwkeurig af en vervolgens bewaakt je het; je kunt dan de prestaties ervan vergelijken met andere voorbeelden”, legt Huang uit.

Hij sprak ook over de NeMo Retriever-service van Nvidia, die is gebaseerd op het concept van het gebruik van Retrieval Augmented Generation (RAG) om informatie naar boven te halen waarop het model niet specifiek is getraind.

Het idee hier is dat documenten, processen en andere gegevens kunnen worden geladen in een vectordatabase die met het model is verbonden. Op basis van een zoekopdracht kan het model vervolgens die database doorzoeken, de relevante informatie ophalen en samenvatten.

NIM-modellen en NeMo Retriever voor het integreren van RAG's zijn nu beschikbaar, terwijl NeMo Microservices in vroege toegang is. ®

spot_img

Laatste intelligentie

spot_img