Logo Zephyrnet

Nvidia: Nel futuro il software sarà solo una raccolta di LLM

Data:

Indipendentemente dall'utilizzo di modelli linguistici di grandi dimensioni (LLM) per aiutare a scrivere il codice, il CEO di Nvidia Jensen Huang ritiene che in futuro il software aziendale sarà solo una raccolta di chat bot messi insieme per completare l'attività.

"È improbabile che lo scriverai da zero o scriverai un sacco di codice Python o qualcosa del genere", ha detto sul palco durante il suo GTC nota fondamentale Lunedi. "È molto probabile che metterete insieme una squadra di IA."

Questo team di intelligenza artificiale, spiega Jensen, potrebbe includere un modello progettato per scomporre e delegare una richiesta a vari altri modelli. Alcuni di questi modelli potrebbero essere addestrati per comprendere servizi aziendali come SAP o Service Now, mentre altri potrebbero eseguire analisi numeriche sui dati archiviati in un database vettoriale. Questi dati possono quindi essere combinati e presentati all'utente finale mediante un altro modello ancora.

"Possiamo ricevere un rapporto ogni singolo giorno o, all'inizio dell'ora, che ha qualcosa a che fare con un piano di costruzione, o qualche previsione, o qualche avviso del cliente, o qualche database di bug o qualunque cosa sia", ha spiegato

Per concatenare tutti questi modelli insieme, Nvidia ha preso spunto dal libro di Docker e ha creato un runtime contenitore per l'intelligenza artificiale.

Soprannominati Nvidia Inference Microservices, o NIM in breve, si tratta essenzialmente di immagini contenitore contenenti sia il modello, sia esso open source o proprietario, insieme a tutte le dipendenze necessarie per farlo funzionare. Questi modelli containerizzati possono quindi essere distribuiti su un numero qualsiasi di runtime, inclusi i nodi Kubernetes accelerati da Nvidia.

“Puoi implementarlo sulla nostra infrastruttura chiamata DGX Cloud, oppure puoi implementarlo in sede, oppure puoi implementarlo ovunque tu voglia. Una volta sviluppato, potrai portarlo ovunque”, ha detto Jensen.

Naturalmente, avrai prima bisogno di un abbonamento alla suite AI Enterprise di Nvidia, che non è esattamente economico a $ 4,500 / anno per GPU o $ 1 / ora per GPU nel cloud. Questa strategia di prezzo sembrerebbe incentivare i sistemi più densi e con prestazioni più elevate in generale poiché costano lo stesso indipendentemente dal fatto che si utilizzi L40 o B100s.

Se l'idea di containerizzare i carichi di lavoro accelerati dalla GPU suona familiare, questa non è esattamente un'idea nuova per Nvidia. L'accelerazione CUDA è stata supportato su un'ampia varietà di runtime di container, tra cui Docker, Podman, Containerd o CRI-O per anni, e non sembra che Container Runtime di Nvidia stia andando da nessuna parte.

La proposta di valore dietro NIM sembra essere che Nvidia gestirà il confezionamento e l'ottimizzazione di questi modelli in modo che abbiano la giusta versione di CUDA, Triton Inference Server o TensorRT LLM, necessaria per ottenere le migliori prestazioni da essi.

L'argomentazione è che se Nvidia rilasciasse un aggiornamento che aumenta notevolmente le prestazioni di inferenza di determinati tipi di modelli, per sfruttare tale funzionalità sarebbe sufficiente eliminare l'ultima immagine NIM.

Oltre alle ottimizzazioni dei modelli specifici dell'hardware, Nvidia sta anche lavorando per consentire comunicazioni coerenti tra i contenitori, in modo che possano chattare tra loro, tramite chiamate API.

A quanto ci risulta, le chiamate API utilizzate dai vari modelli di intelligenza artificiale oggi sul mercato non sono sempre coerenti, il che rende più semplice mettere insieme alcuni modelli mentre altri potrebbero richiedere lavoro aggiuntivo.

Prestare conoscenza istituzionale a modelli di uso generale

Chiunque abbia utilizzato un chatbot AI saprà che, sebbene di solito siano piuttosto bravi con le domande di cultura generale, non sono sempre i più affidabili con richieste oscure o tecniche.

Jensen ha sottolineato questo fatto durante il suo keynote. Alla domanda su un programma interno utilizzato in Nvidia, il modello linguistico grande Llama 2 70B di Meta ha fornito, senza sorprese, la definizione di un termine non correlato.

Invece di cercare di convincere le aziende ad addestrare i propri modelli – qualcosa che venderebbe molte GPU ma limiterebbe notevolmente il mercato indirizzabile – Nvidia ha sviluppato strumenti per mettere a punto i suoi NIM con i dati e i processi dei clienti.

“Abbiamo un servizio chiamato NeMo Microservices che ti aiuta a curare i dati, a preparare i dati in modo che tu possa… integrare questa IA. Lo metti a punto e poi lo guardi; puoi quindi valutare... le sue prestazioni rispetto ad altri esempi", ha spiegato Huang.

Ha anche parlato del servizio NeMo Retriever di Nvidia, che si basa sul concetto di utilizzo della generazione aumentata di recupero (RAG) per far emergere informazioni su cui il modello non è stato specificamente addestrato.

L'idea è che documenti, processi e altri dati possano essere caricati in un database vettoriale connesso al modello. Sulla base di una query, il modello può quindi cercare nel database, recuperare e riepilogare le informazioni rilevanti.

I modelli NIM e NeMo Retriever per l'integrazione dei RAG sono già disponibili, mentre NeMo Microservices è in accesso anticipato. ®

spot_img

L'ultima intelligenza

spot_img