Det här inlägget är skrivet tillsammans med Abhishek Sawarkar, Eliuth Triana, Jiahong Liu och Kshitiz Gupta från NVIDIA.
På re:Invent 2024 är vi glada över att kunna presentera nya funktioner för att påskynda dina AI-inferensarbetsbelastningar med NVIDIA-accelererade datorer och mjukvaruerbjudanden på Amazon SageMaker. Dessa framsteg bygger på vårt samarbete med NVIDIA, som inkluderar att lägga till stöd för slutledningsoptimerade GPU-instanser och integration med NVIDIA-teknik. De representerar vårt fortsatta engagemang för att leverera skalbara, kostnadseffektiva och flexibla GPU-accelererade AI-inferensfunktioner till våra kunder.
Idag introducerar vi tre viktiga framsteg som ytterligare utökar våra AI-inferensmöjligheter:
- NVIDIA NIM-mikrotjänster är nu tillgängliga i AWS Marketplace för SageMaker Inference-distributioner, vilket ger kunderna enkel tillgång till toppmoderna generativa AI-modeller.
- NVIDIA Nemotron-4 är nu tillgänglig på Amazon SageMaker JumpStart, vilket avsevärt utökar utbudet av högkvalitativa, förutbildade modeller tillgängliga för våra kunder. Denna integration ger en kraftfull flerspråkig modell som utmärker sig i resonemangsriktmärken.
- Slutledningsoptimerade P5e- och G6e-instanser är nu allmänt tillgängliga på Amazon SageMaker, vilket ger kunder tillgång till NVIDIA H200 Tensorkärna och L40S GPUs för AI-inferensarbetsbelastningar.
I det här inlägget kommer vi att utforska hur du kan använda dessa nya funktioner för att förbättra din AI-inferens på Amazon SageMaker. Vi går igenom processen med att distribuera NVIDIA NIM-mikrotjänster från AWS Marketplace för SageMaker Inference. Vi kommer sedan att dyka in i NVIDIAs modellutbud på SageMaker JumpStart, och visa hur man kommer åt och distribuerar Nemotron-4-modellen direkt i JumpStart-gränssnittet. Detta kommer att innehålla steg-för-steg-instruktioner om hur du hittar Nemotron-4-modellen i JumpStart-katalogen, väljer den för ditt användningsfall och distribuerar den med några få klick. Vi kommer också att visa hur du finjusterar och optimerar den här modellen för dina specifika krav. Dessutom kommer vi att presentera dig för de nya slutledningsoptimerade P5e- och G6e-instanserna som drivs av NVIDIA H200 och L40S GPU:er, och visar hur de avsevärt kan öka din AI-inferensprestanda. I slutet av det här inlägget kommer du att ha en praktisk förståelse för hur du implementerar dessa framsteg i dina egna AI-projekt, vilket gör det möjligt för dig att påskynda dina slutledningsarbetsbelastningar och driva innovation i din organisation.
Tillkännager NVIDIA NIM i AWS Marketplace för SageMaker Inference
NVIDIA NIM, en del av NVIDIA AI Enterprise-programvaruplattformen, erbjuder en uppsättning högpresterande mikrotjänster utformade för att hjälpa organisationer att snabbt distribuera och skala generativa AI-applikationer på NVIDIA-accelererad infrastruktur. SageMaker Inference är en helt hanterad förmåga för kunder att köra generativa AI- och maskininlärningsmodeller i stor skala, vilket ger specialbyggda funktioner och ett brett utbud av slutledningsoptimerade instanser. AWS Marketplace fungerar som en utvald digital katalog där kunder kan hitta, köpa, distribuera och hantera programvara, data och tjänster från tredje part som behövs för att bygga lösningar och driva företag. Vi är glada över att kunna meddela att AWS-kunder nu kan få tillgång till NVIDIA NIM-mikrotjänster för SageMaker Inference-distributioner via AWS Marketplace, vilket förenklar distributionen av generativa AI-modeller och hjälper partners och företag att skala sina AI-kapaciteter. Den initiala tillgängligheten inkluderar en portfölj av modeller paketerade som NIM-mikrotjänster, vilket utökar alternativen för AI-inferens på Amazon SageMaker, inklusive:
- NVIDIA Nemotron-4: en banbrytande modell för stora språk (LLM) designad för att generera olika syntetiska data som nära efterliknar verkliga data, vilket förbättrar prestandan och robustheten hos anpassade LLM:er över olika domäner.
- Llama 3.1 8B-instruktion: en flerspråkig LLM med 8 miljarder parametrar som är en förtränad och instruktionsinställd generativ modell optimerad för språkförståelse, resonemang och användningsfall för textgenerering.
- Llama 3.1 70B-instruktion: en 70 miljarder parametrar förtränad, instruktionsinställd modell optimerad för flerspråkig dialog.
- Mixtral 8x7B Instruct v0.1: en högkvalitativ sparsam blandning av expertmodeller (SMoE) med öppna vikter som kan följa instruktioner, slutföra förfrågningar och generera kreativa textformat.
Viktiga fördelar med att implementera NIM på AWS
- Enkel distribution: AWS Marketplace-integrering gör det enkelt att välja och distribuera modeller direkt, vilket eliminerar komplexa installationsprocesser. Välj din föredragna modell från marknaden, konfigurera dina infrastrukturalternativ och implementera inom några minuter.
- Sömlös integration med AWS-tjänster: AWS erbjuder robusta infrastrukturalternativ, inklusive GPU-optimerade instanser för slutledning, hanterade AI-tjänster som SageMaker och Kubernetes-stöd med EKS, vilket hjälper dina distributioner att skalas effektivt.
- Säkerhet och kontroll: Behåll full kontroll över dina infrastrukturinställningar på AWS, så att du kan optimera dina körtidsmiljöer för att matcha specifika användningsfall.
Hur man kommer igång med NVIDIA NIM på AWS
Följ dessa steg för att distribuera NVIDIA NIM-mikrotjänster från AWS Marketplace:
- Besök NVIDIA NIM-sidan på AWS Marketplace och välj önskad modell, till exempel Llama 3.1 eller Mixtral.
- Välj AWS-regioner att distribuera till, GPU-instanstyper och resurstilldelningar för att passa dina behov.
- Använd exempel på anteckningsbok för att starta din distribution med SageMaker för att skapa modellen, konfigurera slutpunkten och distribuera modellen, så kommer AWS att hantera orkestreringen av resurser, nätverk och skalning efter behov.
NVIDIA NIM-mikrotjänster på AWS Marketplace underlättar sömlös implementering i SageMaker så att organisationer inom olika branscher kan utveckla, distribuera och skala sina generativa AI-applikationer snabbare och mer effektivt än någonsin.
SageMaker JumpStart inkluderar nu NVIDIA-modeller: Vi introducerar NVIDIA NIM-mikrotjänster för Nemotron-modeller
SageMaker JumpStart är ett modellnav och no-code-lösning inom SageMaker som gör avancerade AI-inferensfunktioner mer tillgängliga för AWS-kunder genom att tillhandahålla en strömlinjeformad väg för att komma åt och distribuera populära modeller från olika leverantörer. Det erbjuder ett intuitivt gränssnitt där organisationer enkelt kan distribuera populära AI-modeller med några få klick, vilket eliminerar komplexiteten som vanligtvis förknippas med modelldistribution och infrastrukturhantering. Integrationen erbjuder funktioner i företagsklass inklusive modellutvärderingsstatistik, finjusterings- och anpassningsmöjligheter och samarbetsverktyg, allt samtidigt som kunderna får full kontroll över sin driftsättning.
Vi är glada över att kunna meddela att NVIDIA-modeller nu är tillgängliga i SageMaker JumpStart, vilket markerar en betydande milstolpe i vårt pågående samarbete. Denna integration ger NVIDIAs banbrytande AI-modeller direkt till SageMaker Inference-kunder, med början med den kraftfulla Nemotron-4-modellen. Med JumpStart kan kunderna komma åt sina toppmoderna modeller inom SageMaker-ekosystemet för att kombinera NVIDIAs AI-modeller med den skalbara och prisvärda slutsatsen från SageMaker.
Stöd för Nemotron-4 – En flerspråkig och finkornig resonemangsmodell
Vi är också glada över att kunna meddela att NVIDIA Nemotron-4 nu är tillgänglig i JumpStart modellhubb. Nemotron-4 är en banbrytande LLM designad för att generera olika syntetiska data som nära efterliknar verkliga data, vilket förbättrar prestandan och robustheten hos anpassade LLMs över olika domäner. Den är kompakt men ändå kraftfull och har finjusterats på noggrant utvalda datauppsättningar som betonar högkvalitativa källor och underrepresenterade domäner. Detta förfinade tillvägagångssätt möjliggör starka resultat i sunt förnuft, matematisk problemlösning och programmeringsuppgifter. Dessutom uppvisar Nemotron-4 enastående flerspråkig kapacitet jämfört med modeller av liknande storlek, och överträffar till och med de som är över fyra gånger större och de som är explicit specialiserade för flerspråkiga uppgifter.
Nemotron-4 – prestanda och optimeringsfördelar
Nemotron-4 visar fantastiska prestanda i sunt förnuftsresonemang som SIQA, ARC, PIQA och Hellaswag med ett genomsnittligt betyg på 73.4, överträffar modeller av liknande storlek och visar liknande prestanda jämfört med större som Llama-2 34B. Dess exceptionella flerspråkiga kapacitet överträffar även specialiserade modeller som mGPT 13B och XGLM 7.5B på benchmarks som XCOPA och TyDiQA, vilket framhäver dess mångsidighet och effektivitet. När de distribueras genom NVIDIA NIM-mikrotjänster på SageMaker, levererar dessa modeller optimerad slutledningsprestanda, vilket gör att företag kan generera och validera syntetisk data med oöverträffad hastighet och noggrannhet.
Genom SageMaker JumpStart kan kunder få tillgång till föroptimerade modeller från NVIDIA som avsevärt förenklar driftsättning och hantering. Dessa behållare är speciellt inställda för NVIDIA GPU:er på AWS, vilket ger optimal prestanda direkt från lådan. NIM-mikrotjänster levererar effektiv distribution och skalning, vilket gör att organisationer kan fokusera på sina användningsfall snarare än infrastrukturhantering.
Snabbstartsguide
- Från SageMaker Studio-konsolen väljer du Försprång och välj NVIDIA-modellfamiljen som visas i följande bild.
- Välj NVIDIA Nemotron-4 NIM mikrotjänst.
- Välj på sidan med modelldetaljer Distribuera, och ett popup-fönster kommer att påminna dig om att du behöver en AWS Marketplace-prenumeration. Om du inte har prenumererat på den här modellen kan du välja Prenumerera, som leder dig till AWS Marketplace för att slutföra prenumerationen. Annars kan du välja Distribuera för att fortsätta med modellinstallation.
- På modelldistributionssidan kan du konfigurera slutpunktsnamnet, välja typ av slutpunktsinstans och antal instanser, förutom andra avancerade inställningar, som IAM-roll och VPC-inställning.
- När du är klar med att konfigurera slutpunkten och välj Distribuera i det nedre högra hörnet kommer NVIDIA Nemotron-4-modellen att distribueras till en SageMaker-slutpunkt. Efter endpointens status är I tjänst, kan du börja testa modellen genom att anropa slutpunkten med hjälp av följande kod. Ta en titt på exempel anteckningsbok om du vill distribuera modellen programmatiskt.
- För att rensa slutpunkten kan du ta bort slutpunkten från SageMaker Studio-konsolen eller anropa delete endpoint API.
SageMaker JumpStart tillhandahåller en ytterligare strömlinjeformad väg för att komma åt och distribuera NVIDIA NIM-mikrotjänster, vilket gör avancerade AI-funktioner ännu mer tillgängliga för AWS-kunder. Genom JumpStarts intuitiva gränssnitt kan organisationer distribuera Nemotron-modeller med några få klick, vilket eliminerar komplexiteten som vanligtvis förknippas med modelldistribution och infrastrukturhantering. Integrationen erbjuder funktioner i företagsklass inklusive modellutvärderingsstatistik, anpassningsmöjligheter och samarbetsverktyg, allt samtidigt som dataintegriteten bibehålls inom kundens VPC. Denna omfattande integration gör det möjligt för organisationer att accelerera sina AI-initiativ samtidigt som de använder de kombinerade styrkorna hos den skalbara infrastrukturen som tillhandahålls av AWS och NVIDIAs optimerade modeller.
P5e- och G6e-instanser som drivs av NVIDIA H200 Tensor Core och L40S GPU:er är nu tillgängliga på SageMaker Inference
SageMaker stöder nu nya P5e- och G6e-instanser, drivna av NVIDIA GPU:er för AI-inferens.
P5e-instanser använder NVIDIA H200 Tensor Core GPU:er för AI och maskininlärning. Dessa instanser erbjuder 1.7 gånger större GPU-minne och 1.4 gånger högre minnesbandbredd än tidigare generationer. Med åtta kraftfulla H200 GPU per instans anslutna med NVIDIA NVLink för sömlös GPU-till-GPU-kommunikation och blixtsnabb 3,200 5 Gbps multi-nod-nätverk genom EFA-teknik, är PXNUMXe-instanser specialbyggda för att distribuera och träna även de mest krävande ML-modellerna. Dessa instanser levererar prestanda, tillförlitlighet och skalbarhet för dina banbrytande slutledningstillämpningar.
G6e-instanser, drivs av NVIDIA L40S GPUs, är en av de mest kostnadseffektiva GPU-instanserna för att distribuera generativa AI-modeller och de högsta prestanda universella GPU-instanserna för rumslig datoranvändning, AI och grafik arbetsbelastningar. De erbjuder 2 gånger högre GPU-minne (48 GB) och 2.9 gånger snabbare GPU-minnesbandbredd jämfört med G6-instanser. G6e-instanser ger upp till 2.5 gånger bättre prestanda jämfört med G5-instanser. Kunder kan använda G6e-instanser för att distribuera LLM:er och diffusionsmodeller för att generera bilder, video och ljud. G6e-instanser har upp till åtta NVIDIA L40S GPU:er med 384 GB totalt GPU-minne (48 GB minne per GPU) och tredje generationens AMD EPYC-processorer. De stöder också upp till 192 vCPU:er, upp till 400 Gbps nätverksbandbredd, upp till 1.536 TB systemminne och upp till 7.6 TB lokal NVMe SSD-lagring.
Båda instansernas familjer är nu tillgängliga på SageMaker Inference. Kassa AWS Region tillgänglighet och priser på vår prissida.
Slutsats
Dessa nya funktioner låter dig distribuera NVIDIA NIM-mikrotjänster på SageMaker via AWS Marketplace, använda nya NVIDIA Nemotron-modeller och använda de senaste GPU-instanstyperna för att driva dina ML-arbetsbelastningar. Vi uppmuntrar dig att titta på dessa erbjudanden och använda dem för att accelerera dina AI-arbetsbelastningar på SageMaker Inference.
Om författarna
James Park är en lösningsarkitekt på Amazon Web Services. Han arbetar med Amazon.com för att designa, bygga och distribuera tekniklösningar på AWS och har ett särskilt intresse för AI och maskininlärning. På fritiden tycker han om att söka nya kulturer, nya upplevelser och att hålla sig uppdaterad med de senaste tekniktrenderna. Du kan hitta honom på LinkedIn.
Saurabh Trikande är senior produktchef för Amazon Bedrock och SageMaker Inference. Han brinner för att arbeta med kunder och partners, motiverad av målet att demokratisera AI. Han fokuserar på kärnutmaningar relaterade till att distribuera komplexa AI-applikationer, slutsatser med modeller för flera hyresgäster, kostnadsoptimeringar och att göra distributionen av Generativa AI-modeller mer tillgänglig. På sin fritid gillar Saurabh att vandra, lära sig om innovativ teknik, följa TechCrunch och umgås med sin familj.
Melanie Li, PhD, är Senior Generative AI Specialist Solutions Architect på AWS baserad i Sydney, Australien, där hennes fokus ligger på att arbeta med kunder för att bygga lösningar som utnyttjar toppmoderna AI- och maskininlärningsverktyg. Hon har varit aktivt involverad i flera generativa AI-initiativ över APJ, och utnyttjat kraften i stora språkmodeller (LLM). Innan han började på AWS hade Dr. Li uppgifter inom datavetenskap inom finans- och detaljhandeln.
Marc Karp är en ML-arkitekt med Amazon SageMaker Service-teamet. Han fokuserar på att hjälpa kunder att designa, distribuera och hantera ML-arbetsbelastningar i stor skala. På fritiden tycker han om att resa och utforska nya platser.
Eliuth Triana är en Developer Relations Manager på NVIDIA som ger Amazons AI MLOps, DevOps, Scientists och AWS tekniska experter möjlighet att bemästra NVIDIAs datorstack för att accelerera och optimera Generative AI Foundation-modeller som sträcker sig från datakurering, GPU-utbildning, modellinferens och produktionsinstallation på AWS GPU-instanser . Dessutom är Eliuth en passionerad mountainbike-, skid-, tennis- och pokerspelare.
Abhishek Sawarkar är en produktchef i NVIDIA AI Enterprise-teamet som arbetar med att integrera NVIDIA AI Software i Cloud MLOps-plattformar. Han fokuserar på att integrera NVIDIA AI änd-till-änd-stacken inom molnplattformar och förbättra användarupplevelsen på accelererad datoranvändning.
Jiahong Liu är en lösningsarkitekt på Cloud Service Provider-teamet på NVIDIA. Han hjälper kunder att ta till sig maskininlärning och AI-lösningar som utnyttjar NVIDIA-accelererad datoranvändning för att hantera deras utbildnings- och slutledningsutmaningar. På sin fritid tycker han om origami, gör-det-själv-projekt och att spela basket.
Kshitiz Gupta är lösningsarkitekt på NVIDIA. Han tycker om att utbilda molnkunder om GPU AI-tekniken NVIDIA har att erbjuda och hjälpa dem med att accelerera deras maskininlärning och djupinlärning. Utanför jobbet tycker han om att springa, vandra och titta på vilda djur.
Tim Ma är huvudspecialist i generativ AI på AWS, där han samarbetar med kunder för att designa och distribuera banbrytande maskininlärningslösningar. Han leder också go-to-market-strategier för generativa AI-tjänster, och hjälper organisationer att utnyttja potentialen hos avancerad AI-teknik.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
- Källa: https://aws.amazon.com/blogs/machine-learning/speed-up-your-ai-inference-workloads-with-new-nvidia-powered-capabilities-in-amazon-sagemaker/