Logo Zéphyrnet

Nvidia : Dans le futur, les logiciels ne seront qu'une collection de LLM

Date :

Sans parler de l'utilisation de grands modèles de langage (LLM) pour aider à écrire du code, le PDG de Nvidia, Jensen Huang, estime qu'à l'avenir, les logiciels d'entreprise ne seront qu'un ensemble de chatbots enchaînés pour accomplir la tâche.

"Il est peu probable que vous l'écriviez à partir de zéro ou que vous écriviez tout un tas de code Python ou quelque chose comme ça", a-t-il déclaré sur scène lors de son GTC. principal Lundi. "Il est très probable que vous réunissiez une équipe d'IA."

Cette équipe d'IA, explique Jensen, pourrait inclure un modèle conçu pour décomposer et déléguer une demande à divers autres modèles. Certains de ces modèles peuvent être formés pour comprendre les services métiers tels que SAP ou Service Now, tandis que d'autres peuvent effectuer une analyse numérique sur les données stockées dans une base de données vectorielle. Ces données peuvent ensuite être combinées et présentées à l'utilisateur final par un autre modèle.

"Nous pouvons recevoir un rapport chaque jour ou, vous savez, en début d'heure, qui a quelque chose à voir avec un plan de construction, ou des prévisions, ou une alerte client, ou une base de données de bugs ou quoi que ce soit", a-t-il expliqué.

Pour enchaîner tous ces modèles, Nvidia s'inspire du livre de Docker et a créé un environnement d'exécution de conteneur pour l'IA.

Surnommés Nvidia Inference Microservices, ou NIM en abrégé, il s'agit essentiellement d'images de conteneurs contenant à la fois le modèle, qu'il soit open source ou propriétaire, ainsi que toutes les dépendances nécessaires à son fonctionnement. Ces modèles conteneurisés peuvent ensuite être déployés sur un nombre illimité d'environnements d'exécution, y compris les nœuds Kubernetes accélérés par Nvidia.

« Vous pouvez le déployer sur notre infrastructure appelée DGX Cloud, ou vous pouvez le déployer sur site, ou vous pouvez le déployer où vous le souhaitez. Une fois que vous l'avez développé, vous pouvez l'emporter partout », a déclaré Jensen.

Bien sûr, vous aurez d'abord besoin d'un abonnement à la suite AI Enterprise de Nvidia, qui n'est pas vraiment bon marché à 4,500 1 $/an par GPU ou 40 $/heure par GPU dans le cloud. Cette stratégie de tarification semble encourager les systèmes plus denses et plus performants en général, car elle coûte le même, que vous utilisiez des LXNUMX ou des LXNUMX. B100s.

Si l’idée de conteneuriser les charges de travail accélérées par GPU vous semble familière, ce n’est pas vraiment une idée nouvelle pour Nvidia. L'accélération de CUDA a été soutenu sur une grande variété d'environnements d'exécution de conteneurs, notamment Docker, Podman, Containerd ou CRI-O, depuis des années, et il ne semble pas que le Container Runtime de Nvidia aille quelque part.

La proposition de valeur derrière NIM semble être que Nvidia se chargera du packaging et de l'optimisation de ces modèles afin qu'ils disposent de la bonne version de CUDA, Triton Inference Server ou TensorRT LLM, nécessaire pour en tirer les meilleures performances.

L'argument étant que si Nvidia publie une mise à jour qui améliore considérablement les performances d'inférence de certains types de modèles, tirer parti de cette fonctionnalité nécessiterait simplement d'extraire la dernière image NIM.

En plus des optimisations de modèles spécifiques au matériel, Nvidia travaille également à permettre des communications cohérentes entre les conteneurs, afin qu'ils puissent discuter entre eux, via des appels API.

D'après ce que nous comprenons, les appels API utilisés par les différents modèles d'IA sur le marché aujourd'hui ne sont pas toujours cohérents, ce qui rend plus facile l'enchaînement de certains modèles tandis que d'autres peuvent nécessiter un travail supplémentaire.

Apporter des connaissances institutionnelles à des modèles à usage général

Quiconque a utilisé un chatbot IA sait que même s'ils sont généralement assez doués pour les questions de culture générale, ils ne sont pas toujours les plus fiables pour les demandes obscures ou techniques.

Jensen a souligné ce fait lors de son discours. Interrogé sur un programme interne utilisé au sein de Nvidia, le grand modèle de langage Llama 2 70B de Meta a sans surprise fourni la définition d'un terme sans rapport.

Au lieu d’essayer d’amener les entreprises à former leurs propres modèles – ce qui permettrait de vendre beaucoup de GPU mais limiterait considérablement le marché adressable – Nvidia a développé des outils pour affiner ses NIM avec les données et processus des clients.

« Nous avons un service appelé NeMo Microservices qui vous aide à organiser les données, à les préparer afin que vous puissiez… intégrer cette IA. Vous l'ajustez, puis vous le gardez en sécurité ; vous pouvez ensuite évaluer… ses performances par rapport à d’autres exemples », a expliqué Huang.

Il a également parlé du service NeMo Retriever de Nvidia, basé sur le concept d'utilisation de la génération augmentée de récupération (RAG) pour faire apparaître des informations sur lesquelles le modèle n'a pas été spécifiquement formé.

L'idée ici est que les documents, processus et autres données peuvent être chargés dans une base de données vectorielle connectée au modèle. Sur la base d'une requête, le modèle peut ensuite rechercher dans cette base de données, récupérer et résumer les informations pertinentes.

Les modèles NIM et NeMo Retriever pour l'intégration des RAG sont disponibles dès maintenant, tandis que NeMo Microservices est en accès anticipé. ®

spot_img

Dernières informations

spot_img