Dieser Beitrag wurde gemeinsam mit Abhishek Sawarkar, Eliuth Triana, Jiahong Liu und Kshitiz Gupta von NVIDIA verfasst.
Auf der re:Invent 2024 freuen wir uns, neue Funktionen zur Beschleunigung Ihrer KI-Inferenz-Workloads mit NVIDIA-Accelerated-Computing- und Software-Angeboten bekannt zu geben. Amazon Sage Maker. Diese Fortschritte basieren auf unserer Zusammenarbeit mit NVIDIA, die unter anderem die Unterstützung für inferenzoptimierte GPU-Instanzen und die Integration mit NVIDIA-Technologien umfasst. Sie stehen für unser anhaltendes Engagement, unseren Kunden skalierbare, kostengünstige und flexible GPU-beschleunigte KI-Inferenzfunktionen bereitzustellen.
Heute stellen wir drei wichtige Weiterentwicklungen vor, die unsere KI-Inferenzfähigkeiten weiter ausbauen:
- NVIDIA NIM-Mikroservices sind jetzt im AWS Marketplace für SageMaker Inference-Bereitstellungen verfügbarund bietet Kunden einfachen Zugriff auf hochmoderne generative KI-Modelle.
- NVIDIA Nemotron-4 ist jetzt verfügbar auf Amazon SageMaker-JumpStart, wodurch die Palette an hochwertigen, vorab trainierten Modellen, die unseren Kunden zur Verfügung stehen, erheblich erweitert wird. Diese Integration bietet ein leistungsstarkes mehrsprachiges Modell, das bei Reasoning-Benchmarks hervorragende Ergebnisse liefert.
- Inferenzoptimierte P5e- und G6e-Instances sind jetzt allgemein auf Amazon SageMaker verfügbarund gibt den Kunden Zugang zu NVIDIA H200 Tensor-Kern und L40 GPUs für KI-Inferenz-Workloads.
In diesem Beitrag untersuchen wir, wie Sie diese neuen Funktionen nutzen können, um Ihre KI-Inferenz auf Amazon SageMaker zu verbessern. Wir gehen den Prozess der Bereitstellung von NVIDIA NIM-Mikroservices von AWS Marketplace für SageMaker-Inferenz durch. Anschließend tauchen wir in die Modellangebote von NVIDIA auf SageMaker JumpStart ein und zeigen, wie Sie direkt in der JumpStart-Oberfläche auf das Nemotron-4-Modell zugreifen und es bereitstellen können. Dazu gehören schrittweise Anweisungen, wie Sie das Nemotron-4-Modell im JumpStart-Katalog finden, es für Ihren Anwendungsfall auswählen und mit wenigen Klicks bereitstellen. Wir zeigen Ihnen auch, wie Sie dieses Modell für Ihre spezifischen Anforderungen feinabstimmen und optimieren können. Darüber hinaus stellen wir Ihnen die neuen inferenzoptimierten P5e- und G6e-Instanzen vor, die von NVIDIA H200- und L40S-GPUs angetrieben werden, und zeigen, wie sie Ihre KI-Inferenzleistung deutlich steigern können. Am Ende dieses Beitrags verfügen Sie über ein praktisches Verständnis dafür, wie Sie diese Fortschritte in Ihren eigenen KI-Projekten implementieren können. So können Sie Ihre Inferenz-Workloads beschleunigen und Innovationen in Ihrem Unternehmen vorantreiben.
Ankündigung von NVIDIA NIM im AWS Marketplace für SageMaker Inference
NVIDIA NIM, Teil der NVIDIA AI Enterprise-Softwareplattform, bietet eine Reihe leistungsstarker Microservices, die Unternehmen dabei helfen sollen, generative KI-Anwendungen auf NVIDIA-beschleunigter Infrastruktur schnell bereitzustellen und zu skalieren. SageMaker Inference ist eine vollständig verwaltete Funktion für Kunden, um generative KI- und Machine-Learning-Modelle in großem Maßstab auszuführen. Sie bietet speziell entwickelte Funktionen und eine breite Palette an inferenzoptimierten Instanzen. AWS Marketplace dient als kuratierter digitaler Katalog, in dem Kunden Drittanbietersoftware, Daten und Dienste finden, kaufen, bereitstellen und verwalten können, die sie zum Erstellen von Lösungen und zum Betrieb von Unternehmen benötigen. Wir freuen uns, bekannt geben zu können, dass AWS-Kunden jetzt über AWS Marketplace auf NVIDIA NIM-Microservices für SageMaker Inference-Bereitstellungen zugreifen können. Dies vereinfacht die Bereitstellung generativer KI-Modelle und hilft Partnern und Unternehmen, ihre KI-Fähigkeiten zu skalieren. Die anfängliche Verfügbarkeit umfasst ein Portfolio von Modellen, die als NIM-Microservices verpackt sind und die Optionen für KI-Inferenz auf Amazon SageMaker erweitern, darunter:
- NVIDIA Nemotron-4: Ein hochmodernes Large Language Model (LLM), das darauf ausgelegt ist, vielfältige synthetische Daten zu generieren, die reale Daten möglichst genau nachahmen und so die Leistung und Robustheit benutzerdefinierter LLMs in verschiedenen Domänen verbessern.
- Llama 3.1 8B-Anweisung: ein mehrsprachiges LLM mit 8 Milliarden Parametern, das ein vorab trainiertes und auf Anweisungen abgestimmtes generatives Modell ist, das für Anwendungsfälle im Bereich Sprachverständnis, logisches Denken und Textgenerierung optimiert ist.
- Llama 3.1 70B-Anweisung: ein mit 70 Milliarden Parametern vortrainiertes, auf Anweisungen abgestimmtes Modell, das für mehrsprachige Dialoge optimiert ist.
- Mixtral 8x7B-Anweisung v0.1: ein hochwertiges, spärliches Expertenmodell (SMoE) mit offenen Gewichten, das Anweisungen befolgen, Anfragen ausführen und kreative Textformate generieren kann.
Wichtige Vorteile der Bereitstellung von NIM auf AWS
- Einfache Bereitstellung: Die AWS Marketplace-Integration vereinfacht die direkte Auswahl und Bereitstellung von Modellen und eliminiert komplexe Einrichtungsprozesse. Wählen Sie Ihr bevorzugtes Modell aus dem Marktplatz aus, konfigurieren Sie Ihre Infrastrukturoptionen und stellen Sie es innerhalb weniger Minuten bereit.
- Nahtlose Integration mit AWS-Diensten: AWS bietet robuste Infrastrukturoptionen, darunter GPU-optimierte Instanzen für Inferenz, verwaltete KI-Dienste wie SageMaker und Kubernetes-Unterstützung mit EKS, damit Ihre Bereitstellungen effektiv skaliert werden können.
- Sicherheit und Kontrolle: Behalten Sie die volle Kontrolle über Ihre Infrastruktureinstellungen auf AWS und optimieren Sie so Ihre Laufzeitumgebungen für bestimmte Anwendungsfälle.
Erste Schritte mit NVIDIA NIM auf AWS
Um NVIDIA NIM-Mikroservices aus dem AWS Marketplace bereitzustellen, führen Sie die folgenden Schritte aus:
- Besuchen Sie die NVIDIA NIM-Seite im AWS Marketplace und wählen Sie Ihr gewünschtes Modell aus, beispielsweise Llama 3.1 oder Mixtral.
- Wählen Sie die AWS-Regionen für die Bereitstellung, die GPU-Instanztypen und die Ressourcenzuweisungen entsprechend Ihren Anforderungen aus.
- Verwenden Sie das Notebook-Beispiele um Ihre Bereitstellung mit SageMaker zu starten, um das Modell zu erstellen, den Endpunkt zu konfigurieren und das Modell bereitzustellen, und AWS übernimmt nach Bedarf die Orchestrierung der Ressourcen, die Vernetzung und die Skalierung.
NVIDIA NIM-Mikroservices im AWS Marketplace ermöglichen eine nahtlose Bereitstellung in SageMaker, sodass Unternehmen verschiedener Branchen ihre generativen KI-Anwendungen schneller und effektiver als je zuvor entwickeln, bereitstellen und skalieren können.
SageMaker JumpStart umfasst jetzt NVIDIA-Modelle: Einführung von NVIDIA NIM-Mikroservices für Nemotron-Modelle
SageMaker JumpStart ist ein Model Hub und eine No-Code-Lösung innerhalb von SageMaker, die AWS-Kunden erweiterte KI-Inferenzfunktionen zugänglicher macht, indem sie einen optimierten Weg zum Zugriff auf und zur Bereitstellung beliebter Modelle verschiedener Anbieter bietet. Es bietet eine intuitive Benutzeroberfläche, über die Unternehmen beliebte KI-Modelle mit wenigen Klicks bereitstellen können, wodurch die Komplexität entfällt, die normalerweise mit der Modellbereitstellung und dem Infrastrukturmanagement verbunden ist. Die Integration bietet Funktionen auf Unternehmensniveau, darunter Metriken zur Modellbewertung, Feinabstimmungs- und Anpassungsfunktionen sowie Tools für die Zusammenarbeit, während die Kunden gleichzeitig die volle Kontrolle über ihre Bereitstellung haben.
Wir freuen uns, bekannt geben zu können, dass NVIDIA-Modelle jetzt in SageMaker JumpStart verfügbar sind. Dies ist ein wichtiger Meilenstein in unserer laufenden Zusammenarbeit. Diese Integration bringt die hochmodernen KI-Modelle von NVIDIA direkt zu den Kunden von SageMaker Inference, beginnend mit dem leistungsstarken Modell Nemotron-4. Mit JumpStart können Kunden innerhalb des SageMaker-Ökosystems auf ihre hochmodernen Modelle zugreifen, um die KI-Modelle von NVIDIA mit der skalierbaren und preisgünstigen Inferenz von SageMaker zu kombinieren.
Unterstützung für Nemotron-4 – Ein mehrsprachiges und feinkörniges Argumentationsmodell
Wir freuen uns außerdem, Ihnen mitteilen zu können, dass NVIDIA Nemotron-4 jetzt im JumpStart-Modell-Hub verfügbar ist. Nemotron-4 ist ein hochmodernes LLM, das zur Generierung vielfältiger synthetischer Daten entwickelt wurde, die reale Daten genau nachahmen und die Leistung und Robustheit benutzerdefinierter LLMs in verschiedenen Bereichen verbessern. Es ist kompakt und dennoch leistungsstark und wurde auf sorgfältig kuratierte Datensätze abgestimmt, die hochwertige Quellen und unterrepräsentierte Bereiche hervorheben. Dieser verfeinerte Ansatz ermöglicht starke Ergebnisse bei Aufgaben im Bereich des gesunden Menschenverstands, der mathematischen Problemlösung und der Programmierung. Darüber hinaus weist Nemotron-4 im Vergleich zu ähnlich großen Modellen hervorragende mehrsprachige Fähigkeiten auf und übertrifft sogar die über viermal größeren und die explizit auf mehrsprachige Aufgaben spezialisierten Modelle.
Nemotron-4 – Leistungs- und Optimierungsvorteile
Nemotron-4 zeigt eine hervorragende Leistung bei Aufgaben zum gesunden Menschenverstand wie SIQA, ARC, PIQA und Hellaswag mit einem durchschnittlichen Ergebnis von 73.4, übertrifft damit ähnlich große Modelle und zeigt eine ähnliche Leistung gegenüber größeren Modellen wie Llama-2 34B. Seine außergewöhnlichen mehrsprachigen Fähigkeiten übertreffen auch spezialisierte Modelle wie mGPT 13B und XGLM 7.5B bei Benchmarks wie XCOPA und TyDiQA, was seine Vielseitigkeit und Effizienz unterstreicht. Wenn diese Modelle über NVIDIA NIM-Mikroservices auf SageMaker bereitgestellt werden, bieten sie eine optimierte Inferenzleistung, sodass Unternehmen synthetische Daten mit beispielloser Geschwindigkeit und Genauigkeit generieren und validieren können.
Über SageMaker JumpStart können Kunden auf voroptimierte Modelle von NVIDIA zugreifen, die die Bereitstellung und Verwaltung erheblich vereinfachen. Diese Container sind speziell auf NVIDIA-GPUs auf AWS abgestimmt und bieten sofort optimale Leistung. NIM-Mikroservices ermöglichen eine effiziente Bereitstellung und Skalierung, sodass sich Unternehmen auf ihre Anwendungsfälle konzentrieren können, anstatt sich mit der Infrastrukturverwaltung zu befassen.
Schnellstartanleitung (English)
- Wählen Sie in der SageMaker Studio-Konsole Starthilfe und wählen Sie die NVIDIA-Modellfamilie wie im folgenden Bild gezeigt.
- Wähle aus NVIDIA Nemotron-4 NIM-Mikroservice.
- Wählen Sie auf der Modelldetailseite Einführung, und ein Popup-Fenster erinnert Sie daran, dass Sie ein AWS Marketplace-Abonnement benötigen. Wenn Sie dieses Modell nicht abonniert haben, können Sie wählen Abonnieren, woraufhin Sie zum AWS Marketplace weitergeleitet werden, um das Abonnement abzuschließen. Andernfalls können Sie wählen Einführung um mit der Modellbereitstellung fortzufahren.
- Auf der Seite zur Modellbereitstellung können Sie den Endpunktnamen konfigurieren, den Endpunkt-Instanztyp und die Anzahl der Instanzen auswählen und außerdem andere erweiterte Einstellungen vornehmen, z. B. die IAM-Rolle und die VPC-Einstellung.
- Nachdem Sie die Einrichtung des Endpunkts abgeschlossen haben und wählen Sie Einführung in der unteren rechten Ecke wird das NVIDIA Nemotron-4-Modell auf einem SageMaker-Endpunkt bereitgestellt. Nachdem der Status des Endpunkts Im Dienstkönnen Sie mit dem Testen des Modells beginnen, indem Sie den Endpunkt mit dem folgenden Code aufrufen. Sehen Sie sich die Beispiel Notizbuch wenn Sie das Modell programmgesteuert bereitstellen möchten.
- Um den Endpunkt zu bereinigen, können Sie den Endpunkt aus der SageMaker Studio-Konsole löschen oder die API zum Löschen des Endpunkts aufrufen.
SageMaker JumpStart bietet einen zusätzlichen optimierten Weg, um auf NVIDIA NIM-Mikroservices zuzugreifen und diese bereitzustellen, wodurch erweiterte KI-Funktionen für AWS-Kunden noch zugänglicher werden. Über die intuitive Benutzeroberfläche von JumpStart können Unternehmen Nemotron-Modelle mit wenigen Klicks bereitstellen und so die Komplexität beseitigen, die normalerweise mit der Modellbereitstellung und dem Infrastrukturmanagement verbunden ist. Die Integration bietet Funktionen auf Unternehmensniveau, darunter Metriken zur Modellbewertung, Anpassungsfunktionen und Tools für die Zusammenarbeit, während gleichzeitig der Datenschutz innerhalb des VPC des Kunden gewahrt bleibt. Diese umfassende Integration ermöglicht es Unternehmen, ihre KI-Initiativen zu beschleunigen und gleichzeitig die kombinierten Stärken der skalierbaren Infrastruktur von AWS und den optimierten Modellen von NVIDIA zu nutzen.
P5e- und G6e-Instanzen mit NVIDIA H200 Tensor Core und L40S GPUs sind jetzt auf SageMaker Inference verfügbar
SageMaker unterstützt jetzt neue P5e- und G6e-Instanzen, die von NVIDIA-GPUs für KI-Inferenz angetrieben werden.
P5e-Instanzen verwenden NVIDIA H200 Tensor-Core-GPUs für KI und maschinelles Lernen. Diese Instanzen bieten 1.7-mal größeren GPU-Speicher und 1.4-mal höhere Speicherbandbreite als frühere Generationen. Mit acht leistungsstarken H200-GPUs pro Instanz, die über NVIDIA NVLink für nahtlose GPU-zu-GPU-Kommunikation verbunden sind, und blitzschnellem 3,200-Gbit/s-Multi-Node-Networking durch EFA-Technologie sind P5e-Instanzen speziell für die Bereitstellung und Schulung selbst der anspruchsvollsten ML-Modelle konzipiert. Diese Instanzen bieten Leistung, Zuverlässigkeit und Skalierbarkeit für Ihre hochmodernen Inferenzanwendungen.
G6e-Instanzen, betrieben durch NVIDIA L40S GPUssind eine der kosteneffizientesten GPU-Instanzen für die Bereitstellung generativer KI-Modelle und die leistungsstärksten universellen GPU-Instanzen für Spatial Computing, KI und Grafik-Workloads. Sie bieten 2-mal mehr GPU-Speicher (48 GB) und 2.9-mal schnellere GPU-Speicherbandbreite im Vergleich zu G6-Instanzen. G6e-Instanzen bieten eine bis zu 2.5-mal bessere Leistung im Vergleich zu G5-Instanzen. Kunden können G6e-Instanzen verwenden, um LLMs und Diffusionsmodelle zum Generieren von Bildern, Videos und Audio bereitzustellen. G6e-Instanzen verfügen über bis zu acht NVIDIA L40S-GPUs mit 384 GB Gesamt-GPU-Speicher (48 GB Speicher pro GPU) und AMD EPYC-Prozessoren der dritten Generation. Sie unterstützen außerdem bis zu 192 vCPUs, bis zu 400 Gbit/s Netzwerkbandbreite, bis zu 1.536 TB Systemspeicher und bis zu 7.6 TB lokalen NVMe-SSD-Speicher.
Beide Instanzfamilien sind jetzt auf SageMaker Inference verfügbar. Informationen zur Verfügbarkeit und Preisgestaltung in AWS-Regionen finden Sie auf unserer Preis Seite.
Schlussfolgerung
Mit diesen neuen Funktionen können Sie NVIDIA NIM-Mikroservices über den AWS Marketplace auf SageMaker bereitstellen, neue NVIDIA Nemotron-Modelle verwenden und die neuesten GPU-Instanztypen nutzen, um Ihre ML-Workloads zu unterstützen. Wir empfehlen Ihnen, sich diese Angebote anzusehen und sie zu verwenden, um Ihre KI-Workloads auf SageMaker Inference zu beschleunigen.
Über die Autoren
James Park ist Lösungsarchitekt bei Amazon Web Services. Er arbeitet mit Amazon.com zusammen, um Technologielösungen auf AWS zu entwerfen, zu erstellen und bereitzustellen, und hat ein besonderes Interesse an KI und maschinellem Lernen. In seiner Freizeit erkundet er gerne neue Kulturen, neue Erfahrungen und bleibt über die neuesten Technologietrends auf dem Laufenden. Sie finden ihn auf LinkedIn.
Saurabh Trikande ist Senior Product Manager für Amazon Bedrock und SageMaker Inference. Er arbeitet leidenschaftlich gern mit Kunden und Partnern zusammen und verfolgt das Ziel, KI zu demokratisieren. Er konzentriert sich auf zentrale Herausforderungen im Zusammenhang mit der Bereitstellung komplexer KI-Anwendungen, Inferenz mit Multi-Tenant-Modellen, Kostenoptimierungen und der Verbesserung der Zugänglichkeit der Bereitstellung von generativen KI-Modellen. In seiner Freizeit geht Saurabh gerne wandern, lernt innovative Technologien kennen, verfolgt TechCrunch und verbringt Zeit mit seiner Familie.
Melanie Li, PhD, ist Senior Generative AI Specialist Solutions Architect bei AWS mit Sitz in Sydney, Australien, wo sie sich auf die Zusammenarbeit mit Kunden konzentriert, um Lösungen zu entwickeln, die modernste KI- und maschinelle Lerntools nutzen. Sie war aktiv an mehreren Generative AI-Initiativen in der APJ beteiligt und nutzte dabei die Leistungsfähigkeit von Large Language Models (LLMs). Bevor sie zu AWS kam, hatte Dr. Li Datenwissenschaftlerpositionen in der Finanz- und Einzelhandelsbranche inne.
Markus Karp ist ein ML-Architekt im Amazon SageMaker Service-Team. Er konzentriert sich darauf, Kunden dabei zu helfen, ML-Workloads in großem Umfang zu entwerfen, bereitzustellen und zu verwalten. In seiner Freizeit reist er gerne und entdeckt neue Orte.
Eliuth Triana ist Developer Relations Manager bei NVIDIA und befähigt die KI-MLOps, DevOps, Wissenschaftler und AWS-Technikexperten von Amazon, den NVIDIA-Computing-Stack zur Beschleunigung und Optimierung von Generative AI Foundation-Modellen zu beherrschen, die von Datenkuration, GPU-Training, Modellinferenz und Produktionsbereitstellung auf AWS-GPU-Instanzen reichen . Darüber hinaus ist Eliuth ein leidenschaftlicher Mountainbiker, Skifahrer, Tennis- und Pokerspieler.
Abhishek Sawarkar ist Produktmanager im NVIDIA AI Enterprise-Team und arbeitet an der Integration von NVIDIA AI-Software in Cloud-MLOps-Plattformen. Sein Schwerpunkt liegt auf der Integration des NVIDIA AI-End-to-End-Stacks in Cloud-Plattformen und der Verbesserung des Benutzererlebnisses beim beschleunigten Computing.
Jiahong Liu ist Solutions Architect im Cloud Service Provider-Team von NVIDIA. Er unterstützt Kunden bei der Einführung von Lösungen für maschinelles Lernen und KI, die NVIDIA-beschleunigtes Computing nutzen, um ihre Trainings- und Inferenzprobleme zu lösen. In seiner Freizeit beschäftigt er sich gerne mit Origami, Heimwerkerprojekten und Basketball.
Kshitiz Gupta ist Solutions Architect bei NVIDIA. Er informiert Cloud-Kunden gerne über die GPU-KI-Technologien, die NVIDIA zu bieten hat, und unterstützt sie bei der Beschleunigung ihrer Machine-Learning- und Deep-Learning-Anwendungen. Außerhalb der Arbeit geht er gerne laufen, wandern und beobachtet Wildtiere.
Tim Ma ist Principal Specialist für generative KI bei AWS, wo er gemeinsam mit Kunden innovative Lösungen für maschinelles Lernen entwickelt und einsetzt. Darüber hinaus leitet er Markteinführungsstrategien für generative KI-Dienste und hilft Unternehmen, das Potenzial fortschrittlicher KI-Technologien auszuschöpfen.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
- PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
- PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
- PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
- Quelle: https://aws.amazon.com/blogs/machine-learning/speed-up-your-ai-inference-workloads-with-new-nvidia-powered-capabilities-in-amazon-sagemaker/