Zephyrnet-Logo

Nvidia: In Zukunft ist Software nur noch eine Sammlung von LLMs

Datum:

Nvidia-CEO Jensen Huang ist davon überzeugt, dass Unternehmenssoftware in Zukunft nur noch eine Ansammlung von aneinandergereihten Chat-Bots sein wird, um die Aufgabe zu erledigen, ohne große Sprachmodelle (LLMs) zum Schreiben von Code zu verwenden.

„Es ist unwahrscheinlich, dass Sie es von Grund auf neu schreiben oder eine ganze Menge Python-Code oder ähnliches schreiben“, sagte er während seiner GTC auf der Bühne Keynote Montag. „Es ist sehr wahrscheinlich, dass Sie ein KI-Team zusammenstellen.“

Jensen erklärt, dass dieses KI-Team möglicherweise ein Modell umfasst, das darauf ausgelegt ist, eine Anfrage aufzuschlüsseln und an verschiedene andere Modelle zu delegieren. Einige dieser Modelle könnten darauf trainiert werden, Unternehmensdienste wie SAP oder Service Now zu verstehen, während andere möglicherweise eine numerische Analyse der in einer Vektordatenbank gespeicherten Daten durchführen. Diese Daten können dann kombiniert und dem Endbenutzer durch ein weiteres Modell präsentiert werden.

„Wir können jeden Tag oder, Sie wissen, zu jeder vollen Stunde einen Bericht erhalten, der etwas mit einem Bauplan, einer Prognose, einer Kundenwarnung, einer Fehlerdatenbank oder was auch immer zu tun hat“, erklärte er

Um all diese Modelle miteinander zu verketten, orientiert sich Nvidia an Dockers Vorbild und hat eine Container-Laufzeitumgebung für KI erstellt.

Bei den sogenannten Nvidia Inference Microservices, kurz NIM, handelt es sich im Wesentlichen um Container-Images, die sowohl das Modell, sei es Open Source oder proprietär, als auch alle für den Betrieb erforderlichen Abhängigkeiten enthalten. Diese Containermodelle können dann über eine beliebige Anzahl von Laufzeiten hinweg bereitgestellt werden, einschließlich Nvidia-beschleunigter Kubernetes-Knoten.

„Sie können es in unserer Infrastruktur namens DGX Cloud bereitstellen, oder Sie können es vor Ort bereitstellen, oder Sie können es überall bereitstellen, wo Sie möchten. Sobald Sie es entwickelt haben, können Sie es überall hin mitnehmen“, sagte Jensen.

Natürlich benötigen Sie zunächst ein Abonnement für Nvidias AI Enterprise Suite, was mit 4,500 US-Dollar pro Jahr pro GPU oder 1 US-Dollar pro Stunde pro GPU in der Cloud nicht gerade günstig ist. Diese Preisstrategie scheint im Allgemeinen Anreize für Systeme mit höherer Leistungsdichte zu schaffen, da sie unabhängig davon, ob Sie L40s oder LXNUMXs verwenden, die gleichen Kosten verursachen B100s.

Wenn Ihnen die Idee der Containerisierung GPU-beschleunigter Arbeitslasten bekannt vorkommt, ist dies für Nvidia nicht gerade eine neue Idee. CUDA-Beschleunigung war unterstützt auf einer Vielzahl von Container-Laufzeiten, darunter Docker, Podman, Containerd oder CRI-O, und es sieht nicht so aus, als würde Nvidias Container-Laufzeit irgendwohin führen.

Das Wertversprechen hinter NIM scheint darin zu bestehen, dass Nvidia die Verpackung und Optimierung dieser Modelle übernimmt, sodass sie über die richtige Version von CUDA, Triton Inference Server oder TensorRT LLM verfügen, die erforderlich ist, um die beste Leistung aus ihnen herauszuholen.

Das Argument ist, dass, wenn Nvidia ein Update veröffentlicht, das die Inferenzleistung bestimmter Modelltypen drastisch steigert, die Nutzung dieser Funktionalität lediglich das Herunterladen des neuesten NIM-Images erfordern würde.

Neben hardwarespezifischen Modelloptimierungen arbeitet Nvidia auch daran, eine konsistente Kommunikation zwischen Containern zu ermöglichen, damit diese über API-Aufrufe miteinander chatten können.

Nach unserem Verständnis sind die API-Aufrufe, die von den verschiedenen KI-Modellen auf dem heutigen Markt verwendet werden, nicht immer konsistent, was dazu führt, dass es einfacher ist, einige Modelle aneinanderzureihen, während andere möglicherweise zusätzliche Arbeit erfordern.

Verleihung institutionellen Wissens an Allzweckmodelle

Jeder, der schon einmal einen KI-Chatbot verwendet hat, weiß, dass dieser zwar in der Regel recht gut mit allgemeinen Wissensfragen umgehen kann, bei obskuren oder technischen Anfragen jedoch nicht immer der zuverlässigste ist.

Jensen hob diese Tatsache in seiner Keynote hervor. Auf die Frage nach einem internen Programm, das bei Nvidia verwendet wird, lieferte das große Sprachmodell Llama 2 70B von Meta wenig überraschend die Definition eines nicht verwandten Begriffs.

Anstatt zu versuchen, Unternehmen dazu zu bringen, ihre eigenen Modelle zu trainieren – was viele GPUs verkaufen würde, aber den adressierbaren Markt erheblich einschränken würde – hat Nvidia Tools entwickelt, um seine NIMs genau auf Kundendaten und -prozesse abzustimmen.

„Wir haben einen Dienst namens NeMo Microservices, der Ihnen hilft, die Daten zu kuratieren und vorzubereiten, damit Sie … diese KI einbinden können. Sie nehmen die Feinabstimmung vor und regeln sie dann. Sie können dann seine Leistung anhand anderer Beispiele bewerten“, erklärte Huang.

Er sprach auch über den NeMo Retriever-Dienst von Nvidia, der auf dem Konzept der Nutzung von Retrieval Augmented Generation (RAG) basiert, um Informationen anzuzeigen, auf die das Modell nicht speziell trainiert wurde.

Die Idee dabei ist, dass Dokumente, Prozesse und andere Daten in eine Vektordatenbank geladen werden können, die mit dem Modell verbunden ist. Basierend auf einer Abfrage kann das Modell dann diese Datenbank durchsuchen, die relevanten Informationen abrufen und zusammenfassen.

NIM-Modelle und NeMo Retriever zur Integration von RAGs sind jetzt verfügbar, während sich NeMo Microservices im Early Access befindet. ®

spot_img

Neueste Intelligenz

spot_img