Vandaag zijn we verheugd om dat aan te kondigen Mistral-NeMo-Basis-2407 en Mistral-NeMo-Instruct-2407—twaalf miljard parameter grote taalmodellen van Mistral-AI die uitblinken in het genereren van tekst - zijn beschikbaar voor klanten via Amazon SageMaker JumpStart. U kunt deze modellen uitproberen met SageMaker JumpStart, een machine learning (ML) hub die toegang biedt tot algoritmen en modellen die met één klik kunnen worden geïmplementeerd voor het uitvoeren van inferentie. In dit bericht laten we zien hoe u de modellen Mistral-NeMo-Instruct-2407 en Mistral-NeMo-Base-2407 kunt ontdekken, implementeren en gebruiken voor verschillende real-world use cases.
Overzicht van Mistral-NeMo-Instruct-2407 en Mistral-NeMo-Base-2407
Mistral NeMo, een krachtig 12B-parametermodel dat is ontwikkeld door samenwerking tussen Mistral AI en NVIDIA en is uitgebracht onder de Apache 2.0-licentie, is nu beschikbaar op SageMaker JumpStart. Dit model vertegenwoordigt een aanzienlijke vooruitgang in meertalige AI-mogelijkheden en toegankelijkheid.
Belangrijkste kenmerken en mogelijkheden
Mistral NeMo beschikt over een 128k token context window, wat verwerking van uitgebreide lange content mogelijk maakt. Het model toont sterke prestaties in redeneren, wereldkennis en coderingsnauwkeurigheid. Zowel vooraf getrainde basis- als instructie-afgestemde checkpoints zijn beschikbaar onder de Apache 2.0-licentie, wat het toegankelijk maakt voor onderzoekers en ondernemingen. De kwantificeringsbewuste training van het model faciliteert optimale FP8-inferentieprestaties zonder afbreuk te doen aan de kwaliteit.
Meertalige ondersteuning
Mistral NeMo is ontworpen voor wereldwijde toepassingen, met sterke prestaties in meerdere talen, waaronder Engels, Frans, Duits, Spaans, Italiaans, Portugees, Chinees, Japans, Koreaans, Arabisch en Hindi. Deze meertalige mogelijkheid, gecombineerd met ingebouwde functieaanroepen en een uitgebreid contextvenster, helpt geavanceerde AI toegankelijker te maken in uiteenlopende taalkundige en culturele landschappen.
Tekken: Geavanceerde tokenisatie
Het model gebruikt Tekken, een innovatieve tokenizer gebaseerd op TikToken. Getraind in meer dan 100 talen, biedt Tekken verbeterde compressie-efficiëntie voor natuurlijke taaltekst en broncode.
Overzicht van SageMaker JumpStart
SageMaker JumpStart is een volledig beheerde service die state-of-the-art basismodellen biedt voor verschillende use cases, zoals content writing, codegeneratie, vraagbeantwoording, copywriting, samenvatting, classificatie en informatieopvraging. Het biedt een verzameling vooraf getrainde modellen die u snel kunt implementeren, waardoor de ontwikkeling en implementatie van ML-applicaties wordt versneld. Een van de belangrijkste componenten van SageMaker JumpStart is de Model Hub, die een uitgebreide catalogus biedt van vooraf getrainde modellen, zoals DBRX, voor verschillende taken.
U kunt nu beide Mistral NeMo-modellen met een paar klikken ontdekken en implementeren in Amazon SageMaker Studio of programmatisch via de SageMaker Python SDK, waarmee u modelprestaties en machine learning-bewerkingen (MLOps) kunt afleiden met Amazon Sage Maker functies zoals Amazon SageMaker-pijpleidingen, Amazon SageMaker-foutopsporing, of containerlogs. Het model wordt geïmplementeerd in een beveiligde AWS-omgeving en onder uw virtuele privécloud (VPC)-controles, wat helpt bij het ondersteunen van gegevensbeveiliging.
Voorwaarden
Om beide NeMo-modellen in SageMaker JumpStart uit te proberen, hebt u de volgende vereisten nodig:
Ontdek Mistral NeMo-modellen in SageMaker JumpStart
U kunt NeMo-modellen openen via SageMaker JumpStart in de SageMaker Studio UI en de SageMaker Python SDK. In deze sectie bespreken we hoe u de modellen in SageMaker Studio kunt ontdekken.
SageMaker Studio is een geïntegreerde ontwikkelomgeving (IDE) die een enkele webgebaseerde visuele interface biedt waar u toegang hebt tot speciaal gebouwde tools om ML-ontwikkelingsstappen uit te voeren, van het voorbereiden van gegevens tot het bouwen, trainen en implementeren van uw ML-modellen. Voor meer informatie over hoe u aan de slag kunt gaan en SageMaker Studio kunt instellen, zie Amazon SageMaker Studio.
In SageMaker Studio heeft u toegang tot SageMaker JumpStart door te kiezen snelle start in het navigatievenster.
Kies dan KnuffelenGezicht.
Vanaf de SageMaker JumpStart landingspagina kunt u zoeken naar NeMo in het zoekvak. De zoekresultaten zullen Mistral NeMo Instrueren en Mistral NeMo-basis.
U kunt de modelkaart kiezen om details over het model te bekijken, zoals licentie, gegevens die worden gebruikt om te trainen en hoe u het model kunt gebruiken. Ook vindt u de Implementeren om het model te implementeren en een eindpunt te maken.
Implementeer het model in SageMaker JumpStart
Implementatie start wanneer u op de knop Implementeren klikt. Nadat de implementatie is voltooid, ziet u dat er een eindpunt is gemaakt. U kunt het eindpunt testen door een voorbeeld van een inferentieverzoekpayload door te geven of door de testoptie te selecteren met behulp van de SDK. Wanneer u de optie selecteert om de SDK te gebruiken, ziet u voorbeeldcode die u kunt gebruiken in de notebook-editor van uw keuze in SageMaker Studio.
Implementeer het model met de SageMaker Python SDK
Om te implementeren met behulp van de SDK, beginnen we met het selecteren van het Mistral NeMo Base-model, gespecificeerd door de model_id
met de waarde huggingface-llm-mistral-nemo-base-2407
. U kunt uw keuze van de geselecteerde modellen op SageMaker implementeren met de volgende code. Op dezelfde manier kunt u NeMo Instruct implementeren met behulp van zijn eigen model-ID.
Hiermee wordt het model op SageMaker geïmplementeerd met standaardconfiguraties, inclusief het standaardinstantietype en standaard VPC-configuraties. U kunt deze configuraties wijzigen door niet-standaardwaarden op te geven in JumpStart-model. De EULA-waarde moet expliciet worden gedefinieerd als True om de eindgebruikerslicentieovereenkomst (EULA) te accepteren. Zorg er ook voor dat u de servicelimiet op accountniveau hebt voor het gebruik van ml.g6.12xlarge
voor eindpuntgebruik als een of meer instanties. U kunt de instructies in volgen AWS-servicequota om een verhoging van het servicequotum aan te vragen. Nadat het is geïmplementeerd, kunt u inferentie uitvoeren tegen het geïmplementeerde eindpunt via de SageMaker-predictor:
Belangrijk om hier op te merken is dat we de djl-lmi v12 inferentiecontainer, dus we volgen de groot model inferentie chat voltooiingen API schema bij het verzenden van een payload naar zowel Mistral-NeMo-Base-2407 als Mistral-NeMo-Instruct-2407.
Mistral-NeMo-Basis-2407
U kunt met het Mistral-NeMo-Base-2407-model interacteren zoals met andere standaard tekstgeneratiemodellen, waarbij het model een invoersequentie verwerkt en voorspelde volgende woorden in de sequentie uitvoert. In deze sectie bieden we enkele voorbeeldprompts en voorbeelduitvoer. Houd er rekening mee dat het basismodel niet instructie-fine-tuned is.
Tekst voltooiing
Taken waarbij het volgende token moet worden voorspeld of ontbrekende tokens in een reeks moeten worden ingevuld:
Het volgende is de uitvoer:
Mistral NeMo Instrueren
Het Mistral-NeMo-Instruct-2407-model is een snelle demonstratie dat het basismodel kan worden verfijnd om overtuigende prestaties te bereiken. U kunt de gegeven stappen volgen om het model te implementeren en de model_id
waarde van huggingface-llm-mistral-nemo-instruct-2407
gebruiken.
Het instructiegerichte NeMo-model kan worden getest met de volgende taken:
Codegeneratie
Mistral NeMo Instruct toont benchmarked strengths voor coderingstaken. Mistral stelt dat hun Tekken tokenizer voor NeMo ongeveer 30% efficiënter is in het comprimeren van broncode. Zie bijvoorbeeld de volgende code:
Het volgende is de uitvoer:
Het model laat sterke prestaties zien bij codegeneratietaken, met de completion_tokens
biedt inzicht in hoe de codecompressie van de tokenizer effectief de representatie van programmeertalen optimaliseert met minder tokens.
Geavanceerde wiskunde en redeneren
Het model rapporteert ook sterktes in wiskundige en redeneernauwkeurigheid. Zie bijvoorbeeld de volgende code:
Het volgende is de uitvoer:
In deze taak testen we Mistral's nieuwe Tekken tokenizer. Mistral stelt dat de tokenizer twee keer en drie keer efficiënter is in het comprimeren van respectievelijk Koreaans en Arabisch.
Hier gebruiken we een stukje tekst voor vertaling:
We hebben onze opdracht gegeven om het model instructies te geven over de vertaling naar het Koreaans en Arabisch:
Vervolgens kunnen we de payload instellen:
Het volgende is de uitvoer:
De vertaalresultaten laten zien hoe het aantal completion_tokens
gebruikt is aanzienlijk verminderd, zelfs voor taken die doorgaans token-intensief zijn, zoals vertalingen met talen als Koreaans en Arabisch. Deze verbetering is mogelijk gemaakt door de optimalisaties die de Tekken-tokenizer biedt. Een dergelijke vermindering is met name waardevol voor token-intensieve toepassingen, waaronder samenvatting, taalgeneratie en multi-turn-conversaties. Door de token-efficiëntie te verbeteren, maakt de Tekken-tokenizer het mogelijk om meer taken af te handelen binnen dezelfde resourcebeperkingen, waardoor het een onschatbaar hulpmiddel is voor het optimaliseren van workflows waarbij tokengebruik direct van invloed is op prestaties en kosten.
Opruimen
Nadat u klaar bent met het uitvoeren van het notebook, moet u ervoor zorgen dat u alle resources verwijdert die u in het proces hebt gemaakt om extra facturering te voorkomen. Gebruik de volgende code:
Conclusie
In dit bericht hebben we laten zien hoe je aan de slag kunt met Mistral NeMo Base en Instruct in SageMaker Studio en hoe je het model kunt implementeren voor inferentie. Omdat basismodellen vooraf zijn getraind, kunnen ze helpen de kosten voor training en infrastructuur te verlagen en maatwerk voor jouw use case mogelijk maken. Bezoek SageMaker JumpStart in SageMaker Studio nu om te beginnen.
Voor meer Mistral-bronnen over AWS, bekijk de Mistral-op-AWS GitHub-repository.
Over de auteurs
Niithiyn Vijeaswaran is een Generative AI Specialist Solutions Architect bij het Third-Party Model Science-team bij AWS. Zijn aandachtsgebied is generatieve AI en AWS AI Accelerators. Hij heeft een bachelordiploma in computerwetenschappen en bio-informatica.
Preston Tuggle is een Sr. Specialist Solutions Architect die werkt aan generatieve AI.
Shan Rai is een Principal Generative AI Specialist bij de AWS World Wide Specialist Organization (WWSO). Hij werkt met klanten in verschillende sectoren om hun meest urgente en innovatieve zakelijke behoeften op te lossen met behulp van de breedte van cloudgebaseerde AI/ML-services die worden geleverd door AWS, inclusief modelaanbiedingen van topaanbieders van basismodellen.
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
- PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
- PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
- Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
- Bron: https://aws.amazon.com/blogs/machine-learning/mistral-nemo-instruct-2407-and-mistral-nemo-base-2407-are-now-available-on-sagemaker-jumpstart/