Mistral-NeMo-Instruct-2407 및 Mistral-NeMo-Base-2407이 이제 SageMaker JumpStart에서 사용 가능합니다.

처럼
좋아했다

시간

오늘 우리는 미스트랄-네모-베이스-2407 and 미스트랄-네모-인스트럭트-2407—120억 개의 매개변수가 있는 대규모 언어 모델 미스트랄 AI 텍스트 생성에 뛰어난 - 고객을 위해 제공됩니다. Amazon SageMaker 점프스타트. SageMaker JumpStart를 사용하여 이러한 모델을 시도할 수 있습니다. SageMaker JumpStart는 추론을 실행하기 위해 클릭 한 번으로 배포할 수 있는 알고리즘과 모델에 대한 액세스를 제공하는 머신 러닝(ML) 허브입니다. 이 게시물에서는 다양한 실제 사용 사례에 대해 Mistral-NeMo-Instruct-2407 및 Mistral-NeMo-Base-2407 모델을 검색, 배포 및 사용하는 방법을 살펴봅니다.

Mistral-NeMo-Instruct-2407 및 Mistral-NeMo-Base-2407 개요

미스트랄 네모Mistral AI와 NVIDIA의 협업을 통해 개발되고 Apache 12 라이선스에 따라 출시된 강력한 2.0B 매개변수 모델이 이제 SageMaker JumpStart에서 제공됩니다. 이 모델은 다국어 AI 기능과 접근성에서 상당한 발전을 나타냅니다.

주요 특징 및 성능

Mistral NeMo는 128k 토큰 컨텍스트 창을 특징으로 하며, 광범위한 장문 콘텐츠를 처리할 수 있습니다. 이 모델은 추론, 세계 지식 및 코딩 정확도에서 강력한 성능을 보여줍니다. 사전 훈련된 기본 및 명령어 조정 검사점은 모두 Apache 2.0 라이선스에 따라 제공되므로 연구자와 기업이 액세스할 수 있습니다. 이 모델의 양자화 인식 훈련은 품질을 손상시키지 않고 최적의 FP8 추론 성능을 용이하게 합니다.

다국어 지원

Mistral NeMo는 영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 포르투갈어, 중국어, 일본어, 한국어, 아랍어, 힌디어를 포함한 여러 언어에서 강력한 성능을 제공하는 글로벌 애플리케이션을 위해 설계되었습니다. 내장된 함수 호출 및 광범위한 컨텍스트 창과 결합된 이 다국어 기능은 다양한 언어 및 문화적 환경에서 고급 AI를 보다 쉽게 ​​사용할 수 있도록 돕습니다.

Tekken: 고급 토큰화

이 모델은 tiktoken을 기반으로 한 혁신적인 토크나이저인 Tekken을 사용합니다. 100개 이상의 언어로 훈련된 Tekken은 자연어 텍스트와 소스 코드에 대한 향상된 압축 효율성을 제공합니다.

SageMaker JumpStart 개요

SageMaker JumpStart는 콘텐츠 작성, 코드 생성, 질의응답, 카피라이터, 요약, 분류, 정보 검색과 같은 다양한 사용 사례에 대한 최첨단 기반 모델을 제공하는 완전 관리형 서비스입니다. 신속하게 배포할 수 있는 사전 학습된 모델 컬렉션을 제공하여 ML 애플리케이션의 개발 및 배포를 가속화합니다. SageMaker JumpStart의 핵심 구성 요소 중 하나는 다양한 작업을 위한 DBRX와 같은 사전 학습된 모델의 방대한 카탈로그를 제공하는 Model Hub입니다.

이제 몇 번의 클릭만으로 Mistral NeMo 모델을 모두 검색하고 배포할 수 있습니다. 아마존 세이지 메이커 스튜디오 또는 SageMaker Python SDK를 통해 프로그래밍 방식으로 모델 성능과 머신 러닝 작업(MLOps) 제어를 도출할 수 있습니다. 아마존 세이지 메이커 다음과 같은 기능 Amazon SageMaker 파이프 라인, Amazon SageMaker 디버거, 또는 컨테이너 로그. 이 모델은 AWS 보안 환경과 가상 사설 클라우드(VPC) 제어 하에 배포되어 데이터 보안을 지원합니다.

사전 조건

SageMaker JumpStart에서 두 가지 NeMo 모델을 모두 시도하려면 다음과 같은 전제 조건이 필요합니다.

SageMaker JumpStart에서 Mistral NeMo 모델을 찾아보세요

SageMaker Studio UI의 SageMaker JumpStart와 SageMaker Python SDK를 통해 NeMo 모델에 액세스할 수 있습니다. 이 섹션에서는 SageMaker Studio에서 모델을 검색하는 방법을 살펴봅니다.

SageMaker Studio는 데이터 준비부터 ML 모델 빌드, 훈련, 배포까지 ML 개발 단계를 수행하기 위한 목적에 맞게 구축된 도구에 액세스할 수 있는 단일 웹 기반 시각적 인터페이스를 제공하는 통합 개발 환경(IDE)입니다. SageMaker Studio를 시작하고 설정하는 방법에 대한 자세한 내용은 다음을 참조하세요. 아마존 세이지 메이커 스튜디오.

SageMaker Studio에서는 다음을 선택하여 SageMaker JumpStart에 액세스할 수 있습니다. 점프 시작 탐색 창에서

그런 다음 포옹 얼굴.

SageMaker JumpStart 랜딩 페이지에서 검색창에 NeMo를 검색할 수 있습니다. 검색 결과에는 다음이 나열됩니다. 미스트랄 네모 인스트럭트 and 미스트랄 네모 베이스.

모델 카드를 선택하면 라이선스, 학습에 사용되는 데이터, 모델 사용 방법 등 모델에 대한 세부 정보를 볼 수 있습니다. 당신은 또한 찾을 수 있습니다 배포 버튼을 눌러 모델을 배포하고 엔드포인트를 생성합니다.

SageMaker JumpStart에서 모델 배포

배포는 배포 버튼을 선택하면 시작됩니다. 배포가 완료되면 엔드포인트가 생성된 것을 볼 수 있습니다. 샘플 추론 요청 페이로드를 전달하거나 SDK를 사용하여 테스트 옵션을 선택하여 엔드포인트를 테스트할 수 있습니다. SDK를 사용하는 옵션을 선택하면 SageMaker Studio에서 선택한 노트북 편집기에서 사용할 수 있는 예제 코드가 표시됩니다.

SageMaker Python SDK를 사용하여 모델 배포

SDK를 사용하여 배포하려면 먼저 Mistral NeMo Base 모델을 선택합니다. model_id 가치와 함께 huggingface-llm-mistral-nemo-base-2407. 다음 코드를 사용하여 SageMaker에서 선택한 모델을 배포할 수 있습니다. 마찬가지로 NeMo Instruct를 자체 모델 ID를 사용하여 배포할 수 있습니다.

from sagemaker.jumpstart.model import JumpStartModel 

accept_eula = True 

model = JumpStartModel(model_id="huggingface-llm-mistral-nemo-base-2407") 
predictor = model.deploy(accept_eula=accept_eula)

그러면 기본 인스턴스 유형 및 기본 VPC 구성을 포함한 기본 구성으로 SageMaker에 모델이 배포됩니다. 기본값이 아닌 값을 지정하여 이러한 구성을 변경할 수 있습니다. JumpStart모델. EULA 값은 최종 사용자 라이선스 계약(EULA)을 수락하려면 명시적으로 True로 정의해야 합니다. 또한 계정 수준 서비스 제한이 있는지 확인하십시오. ml.g6.12xlarge 하나 이상의 인스턴스로 엔드포인트를 사용할 수 있습니다. 다음 지침을 따를 수 있습니다. AWS 서비스 할당량 서비스 할당량 증가를 요청합니다. 배포된 후 SageMaker 예측기를 통해 배포된 엔드포인트에 대한 추론을 실행할 수 있습니다.

payload = {
    "messages": [
        {
            "role": "user",
            "content": "Hello"
        }
    ],
    "max_tokens": 1024,
    "temperature": 0.3,
    "top_p": 0.9,
}

response = predictor.predict(payload)['choices'][0]['message']['content'].strip()
print(response)

여기서 주의해야 할 중요한 점은 우리가 다음을 사용하고 있다는 것입니다. djl-lmi v12 추론 컨테이너, 그래서 우리는 다음을 따르고 있습니다. 대규모 모델 추론 채팅 완성 API 스키마 Mistral-NeMo-Base-2407과 Mistral-NeMo-Instruct-2407 두 곳에 모두 탑재물을 보낼 때.

미스트랄-네모-베이스-2407

Mistral-NeMo-Base-2407 모델은 다른 표준 텍스트 생성 모델과 마찬가지로 상호 작용할 수 있습니다. 이 모델은 입력 시퀀스를 처리하고 시퀀스에서 예측된 다음 단어를 출력합니다. 이 섹션에서는 몇 가지 예시 프롬프트와 샘플 출력을 제공합니다. 기본 모델은 지침이 미세 조정되지 않았다는 점에 유의하세요.

텍스트 완성

다음 토큰을 예측하거나 시퀀스에서 누락된 토큰을 채우는 작업:

payload = {
    "messages": [
        {
            "role": "user",
            "content": "The capital of France is ___."
        }
    ],
    "max_tokens": 10,
    "temperature": 0.3,
    "top_p": 0.9,
}

response = predictor.predict(payload)['choices'][0]['message']['content'].strip()
print(response)

출력은 다음과 같습니다.

Paris
The capital of France is Paris.

미스트랄 네모 인스트럭트

Mistral-NeMo-Instruct-2407 모델은 기본 모델을 미세 조정하여 매력적인 성능을 얻을 수 있다는 것을 빠르게 보여줍니다. 제공된 단계에 따라 모델을 배포하고 model_id 의 가치 huggingface-llm-mistral-nemo-instruct-2407 대신.

명령어 조정 NeMo 모델은 다음 작업으로 테스트할 수 있습니다.

코드 생성

Mistral NeMo Instruct는 코딩 작업에 대한 벤치마크된 강점을 보여줍니다. Mistral은 NeMo용 Tekken 토크나이저가 소스 코드를 압축하는 데 약 30% 더 효율적이라고 말합니다. 예를 들어 다음 코드를 참조하세요.

payload = {
    "messages": [
        {
            "role": "user",
            "content": """Create a Binary Search Tree class with methods for insertion, searching, and in-order traversal."""
        }
    ],
    "max_tokens": 2048,
    "temperature": 0.3,
    "top_p": 0.9,
}
text_response = predictor.predict(payload)['choices'][0]['message']['content'].strip()
tokens = predictor.predict(payload)['usage']
print(text_response)
print(tokens)

출력은 다음과 같습니다.

class Node:
    def __init__(self, key):
        self.key = key
        self.left = None
        self.right = None

class BinarySearchTree:
    def __init__(self):
        self.root = None

    def insert(self, key):
        if not self.root:
            self.root = Node(key)
        else:
            self._insert(self.root, key)

    def _insert(self, node, key):
        if key < node.key:
            if node.left:
                self._insert(node.left, key)
            else:
                node.left = Node(key)
        elif key > node.key:
            if node.right:
                self._insert(node.right, key)
            else:
                node.right = Node(key)

    def search(self, key):
        return self._search(self.root, key)

    def _search(self, node, key):
        if not node or node.key == key:
            return node

        if key < node.key:
            return self._search(node.left, key)
        else:
            return self._search(node.right, key)

    def inorder_traversal(self):
        self._inorder_traversal(self.root)
        print()

    def _inorder_traversal(self, node):
        if node:
            self._inorder_traversal(node.left)
            print(node.key, end=" ")
            self._inorder_traversal(node.right)

# Example usage:
bst = BinarySearchTree()
bst.insert(50)
bst.insert(30)
bst.insert(20)
bst.insert(40)
bst.insert(70)
bst.insert(60)
bst.insert(80)

print("In-order traversal:")
bst.inorder_traversal()  # Output: 20 30 40 50 60 70 80

print(f"Search 40: {bst.search(40).key if bst.search(40) else 'Not found'}")
print(f"Search 90: {bst.search(90).key if bst.search(90) else 'Not found'}")
{'prompt_tokens': 22, 'completion_tokens': 433, 'total_tokens': 455}

이 모델은 코드 생성 작업에서 강력한 성능을 보여줍니다. completion_tokens 토크나이저의 코드 압축이 더 적은 토큰을 사용하여 프로그래밍 언어의 표현을 효과적으로 최적화하는 방법에 대한 통찰력을 제공합니다.

고급 수학 및 추론

이 모델은 또한 수학 및 추론 정확도의 강점을 보고합니다. 예를 들어, 다음 코드를 참조하세요.

payload = {
    "messages": [
        {   "role": "system", 
            "content": "You are an expert in mathematics and reasoning. Your role is to provide examples, explanations, and insights related to mathematical concepts, problem-solving techniques, and logical reasoning.",
            "role": "user",
            "content": """Calculating the orbital period of an exoplanet:
             Given: An exoplanet orbits its star at a distance of 2.5 AU (Astronomical Units). The star has a mass of 1.2 solar masses.
             Task: Calculate the orbital period of the exoplanet in Earth years."""
        }
    ],
    "max_tokens": 2048,
    "temperature": 0.3,
    "top_p": 0.9,
}
response = predictor.predict(payload)['choices'][0]['message']['content'].strip()
print(response)

출력은 다음과 같습니다.

To calculate the orbital period of an exoplanet, we can use Kepler's Third Law, which states that the square of the orbital period (P) is directly proportional to the cube of the semi-major axis (a) of the orbit and inversely proportional to the mass (M) of the central body. The formula is:

P^2 = (4 * π^2 * a^3) / (G * M)

where:
- P is the orbital period in years,
- a is the semi-major axis in AU (Astronomical Units),
- G is the gravitational constant (6.67430 × 10^-11 m^3 kg^-1 s^-2),
- M is the mass of the star in solar masses.

First, we need to convert the mass of the star from solar masses to kilograms. The mass of the Sun is approximately 1.98847 × 10^30 kg. So, the mass of the star is:

M = 1.2 * 1.98847 × 10^30 kg = 2.386164 × 10^30 kg

Now, we can plug the values into Kepler's Third Law:

P^2 = (4 * π^2 * (2.5 AU)^3) / (G * M)

Since 1 AU is approximately 1.496 × 10^11 meters, the semi-major axis in meters is:

a = 2.5 AU * 1.496 × 10^11 m/AU = 3.74 × 10^12 m

Now, we can calculate P^2:

P^2 = (4 * π^2 * (3.74 × 10^12 m)^3) / (6.67430 × 10^-11 m^3 kg^-1 s^-2 * 2.386164 × 10^30 kg)

P^2 = (4 * π^2 * 5.62 × 10^36 m^3) / (1.589 × 10^20 m^3 kg^-1 s^-2)

P^2 = (4 * π^2 * 5.62 × 10^36 m^3) / (1.589 × 10^20 m^3 kg^-1 s^-2)

P^2 = 4.15 × 10^16 s^2

Now, we take the square root to find the orbital period in seconds:

P = √(4.15 × 10^16 s^2) ≈ 2.04 × 10^8 s

Finally, we convert the orbital period from seconds to Earth years (1 Earth year = 31,557,600 seconds):

P = (2.04 × 10^8 s) / (31,557,600 s/year) ≈ 6.47 years

Therefore, the orbital period of the exoplanet is approximately 6.47 Earth years.

언어 번역 작업

이 작업에서는 Mistral의 새로운 Tekken 토크나이저를 테스트해 보겠습니다. Mistral은 토크나이저가 한국어와 아랍어를 각각 2배, 3배 더 효율적으로 압축한다고 말합니다.

여기서는 번역을 위해 일부 텍스트를 사용합니다.

text= """
"How can our business leverage Mistral NeMo with our new RAG application?"
"What is our change management strategy once we roll out this new application to the field?
"""

우리는 모델에 한국어와 아랍어로 번역하도록 지시하는 프롬프트를 설정했습니다.

prompt=f"""

text={text}

Translate the following text into these languages:

1. Korean
2. Arabic

Label each language section accordingly""".format(text=text)

그런 다음 페이로드를 설정할 수 있습니다.

payload = {
    "messages": [
        {   "role": "system", 
            "content": "You are an expert in language translation.",
            "role": "user",
            "content": prompt
        }
    ],
    "max_tokens": 2048,
    "temperature": 0.3,
    "top_p": 0.9,
}
#response = predictor.predict(payload)
text_response = predictor.predict(payload)['choices'][0]['message']['content'].strip()
tokens = predictor.predict(payload)['usage']
print(text_response)
print(tokens)

출력은 다음과 같습니다.

**1. Korean**

- "우리의 비즈니스가 Mistral NeMo를 어떻게 활용할 수 있을까요?"
- "이 새 애플리케이션을 현장에 롤아웃할 때 우리의 변화 관리 전략은 무엇입니까?"

**2. Arabic**

- "كيف يمكن لعمليتنا الاست من Mistral NeMo مع تطبيق RAG الجديد؟"
- "ما هو استراتيجيتنا في إدارة التغيير بعد تفعيل هذا التطبيق الجديد في الميدان؟"
{'prompt_tokens': 61, 'completion_tokens': 243, 'total_tokens': 304}

번역 결과는 숫자가 어떻게 나타나는지 보여줍니다. completion_tokens 사용된 것은 상당히 감소했으며, 한국어와 아랍어와 같은 언어가 포함된 번역과 같이 일반적으로 토큰 집약적인 작업에서도 마찬가지입니다. 이러한 개선은 Tekken 토크나이저가 제공하는 최적화를 통해 가능해졌습니다. 이러한 감소는 요약, 언어 생성 및 다중 턴 대화를 포함하여 토큰 집약적 애플리케이션에 특히 가치가 있습니다. 토큰 효율성을 향상시킴으로써 Tekken 토크나이저는 동일한 리소스 제약 내에서 더 많은 작업을 처리할 수 있으므로 토큰 사용이 성능과 비용에 직접적인 영향을 미치는 워크플로를 최적화하는 데 매우 귀중한 도구가 됩니다.

정리

노트북 실행을 마친 후에는 추가 청구를 피하기 위해 프로세스에서 만든 모든 리소스를 삭제해야 합니다. 다음 코드를 사용하세요.

predictor.delete_model()
predictor.delete_endpoint()

결론

이 게시물에서는 SageMaker Studio에서 Mistral NeMo Base와 Instruct를 시작하고 추론을 위해 모델을 배포하는 방법을 보여드렸습니다. 기초 모델은 사전 학습되어 있으므로 학습 및 인프라 비용을 낮추고 사용 사례에 맞게 사용자 정의할 수 있습니다. 방문 SageMaker Studio에서 SageMaker JumpStart 지금 시작하십시오.

AWS에 대한 Mistral 리소스에 대한 자세한 내용은 다음을 확인하세요. Mistral-on-AWS GitHub 저장소.


저자 소개

니티인 비제아스와란 AWS의 Third-Party Model Science 팀에서 Generative AI Specialist Solutions Architect로 일하고 있습니다. 그의 관심 분야는 생성 AI와 AWS AI Accelerators입니다. 그는 컴퓨터 과학 및 생물정보학 학사 학위를 취득했습니다.

프레스턴 터글 생성 AI 분야에서 일하는 수석 전문 솔루션 설계자입니다.

셰인 라이 AWS World Wide Specialist Organization(WWSO)의 Principal Generative AI Specialist입니다. 그는 업계 전반의 고객과 협력하여 AWS가 제공하는 광범위한 클라우드 기반 AI/ML 서비스, 최고 계층 기반 모델 공급업체의 모델 오퍼링을 포함하여 가장 시급하고 혁신적인 비즈니스 요구 사항을 해결합니다.

관련 기사

spot_img

최근 기사

spot_img