Lưu trữ Mô hình Whisper trên Amazon SageMaker: Khám phá các tùy chọn suy luận | Dịch vụ web của Amazon

OpenAI thì thầm là mô hình nhận dạng giọng nói tự động (ASR) tiên tiến có giấy phép MIT. Công nghệ ASR tìm thấy tiện ích trong các dịch vụ phiên âm, trợ lý giọng nói và tăng cường khả năng tiếp cận cho những người khiếm thính. Mô hình tiên tiến này được đào tạo trên tập dữ liệu khổng lồ và đa dạng về dữ liệu được giám sát đa ngôn ngữ và đa nhiệm được thu thập từ web. Độ chính xác và khả năng thích ứng cao khiến nó trở thành tài sản quý giá cho nhiều nhiệm vụ liên quan đến giọng nói.

Trong bối cảnh không ngừng phát triển của học máy và trí tuệ nhân tạo, Amazon SageMaker cung cấp một hệ sinh thái toàn diện. SageMaker trao quyền cho các nhà khoa học, nhà phát triển và tổ chức dữ liệu để phát triển, đào tạo, triển khai và quản lý các mô hình học máy trên quy mô lớn. Cung cấp nhiều công cụ và khả năng, nó đơn giản hóa toàn bộ quy trình làm việc của máy học, từ xử lý trước dữ liệu và phát triển mô hình cho đến triển khai và giám sát dễ dàng. Giao diện thân thiện với người dùng của SageMaker khiến nó trở thành nền tảng then chốt để khai thác toàn bộ tiềm năng của AI, biến nó thành một giải pháp thay đổi cuộc chơi trong lĩnh vực trí tuệ nhân tạo.

Trong bài đăng này, chúng tôi bắt tay vào khám phá các khả năng của SageMaker, đặc biệt tập trung vào việc lưu trữ các mô hình Whisper. Chúng ta sẽ đi sâu vào hai phương pháp để thực hiện việc này: một phương pháp sử dụng mô hình Whisper PyTorch và phương pháp kia sử dụng triển khai Ôm mặt của mô hình Whisper. Ngoài ra, chúng tôi sẽ tiến hành kiểm tra chuyên sâu các tùy chọn suy luận của SageMaker, so sánh chúng qua các tham số như tốc độ, chi phí, kích thước tải trọng và khả năng mở rộng. Phân tích này trao quyền cho người dùng đưa ra quyết định sáng suốt khi tích hợp mô hình Whisper vào các trường hợp và hệ thống sử dụng cụ thể của họ.

Tổng quan về giải pháp

Sơ đồ sau đây cho thấy các thành phần chính của giải pháp này.

Để lưu trữ mô hình trên Amazon SageMaker, bước đầu tiên là lưu các thành phần lạ của mô hình. Những tạo phẩm này đề cập đến các thành phần thiết yếu của mô hình học máy cần thiết cho các ứng dụng khác nhau, bao gồm cả việc triển khai và đào tạo lại. Chúng có thể bao gồm các tham số mô hình, tệp cấu hình, thành phần tiền xử lý cũng như siêu dữ liệu, chẳng hạn như chi tiết phiên bản, quyền tác giả và bất kỳ ghi chú nào liên quan đến hiệu suất của nó. Điều quan trọng cần lưu ý là các mô hình Whisper để triển khai PyTorch và Ôm mặt bao gồm các tạo phẩm mô hình khác nhau.
Tiếp theo, chúng tôi tạo các tập lệnh suy luận tùy chỉnh. Trong các tập lệnh này, chúng tôi xác định cách tải mô hình và chỉ định quy trình suy luận. Đây cũng là nơi chúng ta có thể kết hợp các thông số tùy chỉnh nếu cần. Ngoài ra, bạn có thể liệt kê các gói Python cần thiết trong một requirements.txt tài liệu. Trong quá trình triển khai mô hình, các gói Python này sẽ được cài đặt tự động trong giai đoạn khởi tạo.
Sau đó, chúng tôi chọn bộ chứa deep learning (DLC) PyTorch hoặc Hugging Face được cung cấp và duy trì bởi AWS. Các vùng chứa này là hình ảnh Docker dựng sẵn với các khung học sâu và các gói Python cần thiết khác. Để biết thêm thông tin, bạn có thể kiểm tra cái này Link.
Với các tạo phẩm mô hình, tập lệnh suy luận tùy chỉnh và các DLC đã chọn, chúng tôi sẽ lần lượt tạo các mô hình Amazon SageMaker cho PyTorch và Hugging Face.
Cuối cùng, các mô hình có thể được triển khai trên SageMaker và được sử dụng với các tùy chọn sau: điểm cuối suy luận theo thời gian thực, công việc chuyển đổi hàng loạt và điểm cuối suy luận không đồng bộ. Chúng ta sẽ đi sâu vào các tùy chọn này chi tiết hơn ở phần sau của bài đăng này.

Sổ ghi chép mẫu và mã cho giải pháp này có sẵn trên Kho GitHub.

Hình 1. Tổng quan về các thành phần giải pháp chính

Hương

Lưu trữ Mô hình thì thầm trên Amazon SageMaker

Trong phần này, chúng tôi sẽ giải thích các bước để lưu trữ mô hình Whisper trên Amazon SageMaker, lần lượt sử dụng PyTorch và Hugging Face Framework. Để thử nghiệm giải pháp này, bạn cần có tài khoản AWS và quyền truy cập vào dịch vụ Amazon SageMaker.

Khung PyTorch

Lưu các tạo phẩm mô hình

Tùy chọn đầu tiên để lưu trữ mô hình là sử dụng Thì thầm gói Python chính thức, có thể được cài đặt bằng cách sử dụng pip install openai-whisper. Gói này cung cấp mô hình PyTorch. Khi lưu các tạo phẩm mô hình vào kho lưu trữ cục bộ, bước đầu tiên là lưu các tham số có thể học được của mô hình, chẳng hạn như trọng số mô hình và độ lệch của từng lớp trong mạng thần kinh, dưới dạng tệp 'pt'. Bạn có thể chọn từ các kích thước mô hình khác nhau, bao gồm 'nhỏ', 'cơ sở', 'nhỏ', 'trung bình' và 'lớn'. Kích thước mô hình lớn hơn mang lại hiệu suất chính xác cao hơn nhưng phải trả giá bằng độ trễ suy luận dài hơn. Ngoài ra, bạn cần lưu từ điển trạng thái mô hình và từ điển thứ nguyên, trong đó có từ điển Python ánh xạ từng lớp hoặc tham số của mô hình PyTorch tới các tham số có thể học tương ứng của nó, cùng với các siêu dữ liệu và cấu hình tùy chỉnh khác. Mã bên dưới cho biết cách lưu các tạo phẩm Whisper PyTorch.

### PyTorch
import whisper
# Load the PyTorch model and save it in the local repo
model = whisper.load_model("base")
torch.save(
    {
        'model_state_dict': model.state_dict(),
        'dims': model.dims.__dict__,
    },
    'base.pt'
)

Chọn DLC

Bước tiếp theo là chọn DLC dựng sẵn từ đây Link. Hãy cẩn thận khi chọn đúng hình ảnh bằng cách xem xét các cài đặt sau: framework (PyTorch), phiên bản framework, tác vụ (suy luận), phiên bản Python và phần cứng (tức là GPU). Bạn nên sử dụng các phiên bản mới nhất cho framework và Python bất cứ khi nào có thể, vì điều này mang lại hiệu suất tốt hơn và giải quyết các vấn đề cũng như lỗi đã biết từ các bản phát hành trước.

Tạo mô hình Amazon SageMaker

Tiếp theo, chúng tôi sử dụng SDK Python của SageMaker để tạo mô hình PyTorch. Điều quan trọng cần nhớ là thêm các biến môi trường khi tạo mô hình PyTorch. Theo mặc định, TorchServe chỉ có thể xử lý kích thước tệp tối đa 6MB, bất kể loại suy luận được sử dụng.

# Create a PyTorchModel for deployment
from sagemaker.pytorch.model import PyTorchModel

whisper_pytorch_model = PyTorchModel(
    model_data=model_uri,
    image_uri=image,
    role=role,
    entry_point="inference.py",
    source_dir='code',
    name=model_name,
    env = {
        'TS_MAX_REQUEST_SIZE': '100000000',
        'TS_MAX_RESPONSE_SIZE': '100000000',
        'TS_DEFAULT_RESPONSE_TIMEOUT': '1000'
    }
)

Bảng sau hiển thị cài đặt cho các phiên bản PyTorch khác nhau:

Khung	Biến môi trường
PyTorch 1.8 (dựa trên TorchServe)	'`TS_MAX_REQUEST_SIZE`': '100000000' '`TS_MAX_RESPONSE_SIZE`': '100000000' '`TS_DEFAULT_RESPONSE_TIMEOUT`': '1000'
PyTorch 1.4 (dựa trên MMS)	'`MMS_MAX_REQUEST_SIZE`': '1000000000' '`MMS_MAX_RESPONSE_SIZE`': '1000000000' '`MMS_DEFAULT_RESPONSE_TIMEOUT`': '900'

Xác định phương thức tải mô hình trong inference.py

Trong phong tục inference.py script, trước tiên chúng tôi kiểm tra tính khả dụng của GPU hỗ trợ CUDA. Nếu có GPU như vậy thì chúng tôi sẽ chỉ định 'cuda' thiết bị cho DEVICE Biến đổi; mặt khác, chúng tôi chỉ định 'cpu' thiết bị. Bước này đảm bảo rằng mô hình được đặt trên phần cứng có sẵn để tính toán hiệu quả. Chúng tôi tải mô hình PyTorch bằng gói Whisper Python.

### PyTorch
DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
def model_fn(model_dir):
    """
    Load and return the model
    """
    model = whisper.load_model(os.path.join(model_dir, 'base.pt'))
    model = model.to(DEVICE)
    return model

Khung ôm mặt

Lưu các tạo phẩm mô hình

Tùy chọn thứ hai là sử dụng Lời thì thầm ôm mặt thực hiện. Mô hình có thể được tải bằng cách sử dụng AutoModelForSpeechSeq2Seq lớp máy biến áp. Các tham số có thể học được được lưu trong tệp nhị phân (bin) bằng cách sử dụng save_pretrained phương pháp. Bộ mã thông báo và bộ tiền xử lý cũng cần được lưu riêng để đảm bảo mô hình Ôm mặt hoạt động chính xác. Ngoài ra, bạn có thể triển khai mô hình trên Amazon SageMaker trực tiếp từ Hugging Face Hub bằng cách đặt hai biến môi trường: HF_MODEL_ID và HF_TASK. Để biết thêm thông tin, vui lòng tham khảo điều này trang web.

### Hugging Face
from transformers import WhisperTokenizer, WhisperProcessor, AutoModelForSpeechSeq2Seq

# Load the pre-trained model
model_name = "openai/whisper-base"
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_name)
tokenizer = WhisperTokenizer.from_pretrained(model_name)
processor = WhisperProcessor.from_pretrained(model_name)

# Define a directory where you want to save the model
save_directory = "./model"

# Save the model to the specified directory
model.save_pretrained(save_directory)
tokenizer.save_pretrained(save_directory)
processor.save_pretrained(save_directory)

Chọn DLC

Tương tự như khung PyTorch, bạn có thể chọn DLC Ôm Mặt được tạo sẵn từ cùng một khung Link. Đảm bảo chọn một DLC hỗ trợ máy biến áp Ôm Mặt mới nhất và bao gồm hỗ trợ GPU.

Tạo mô hình Amazon SageMaker

Tương tự, chúng tôi sử dụng SDK Python của SageMaker để tạo mô hình Ôm Mặt. Mô hình Ôm mặt thì thầm có một giới hạn mặc định là nó chỉ có thể xử lý các phân đoạn âm thanh tối đa 30 giây. Để giải quyết hạn chế này, bạn có thể bao gồm chunk_length_s tham số trong biến môi trường khi tạo mô hình Ôm mặt, sau đó chuyển tham số này vào tập lệnh suy luận tùy chỉnh khi tải mô hình. Cuối cùng, đặt các biến môi trường để tăng kích thước tải trọng và thời gian chờ phản hồi cho vùng chứa Ôm Mặt.

# Create a HuggingFaceModel for deployment
from sagemaker.huggingface.model import HuggingFaceModel

whisper_hf_model = HuggingFaceModel(
    model_data=model_uri,
    role=role, 
    image_uri = image,
    entry_point="inference.py",
    source_dir='code',
    name=model_name,
    env = {
        "chunk_length_s":"30",
        'MMS_MAX_REQUEST_SIZE': '2000000000',
        'MMS_MAX_RESPONSE_SIZE': '2000000000',
        'MMS_DEFAULT_RESPONSE_TIMEOUT': '900'
    }
)

Khung Biến môi trường

Vùng chứa suy luận HuggingFace

(dựa trên MMS)

'MMS_MAX_REQUEST_SIZE': '2000000000'
'MMS_MAX_RESPONSE_SIZE': '2000000000'
'MMS_DEFAULT_RESPONSE_TIMEOUT': '900'

Xác định phương thức tải mô hình trong inference.py

Khi tạo tập lệnh suy luận tùy chỉnh cho mô hình Ôm mặt, chúng tôi sử dụng một đường dẫn, cho phép chúng tôi chuyển chunk_length_s như một tham số. Tham số này cho phép mô hình xử lý hiệu quả các tệp âm thanh dài trong quá trình suy luận.

### Hugging Face
DEVICE = "cuda:0" if torch.cuda.is_available() else "cpu"
chunk_length_s = int(os.environ.get('chunk_length_s'))
def model_fn(model_dir):
    """
    Load and return the model
    """
    model = pipeline(
        "automatic-speech-recognition",
        model=model_dir,
        chunk_length_s=chunk_length_s,
        device=DEVICE,
        )
    return model

Khám phá các tùy chọn suy luận khác nhau trên Amazon SageMaker

Các bước để chọn tùy chọn suy luận đều giống nhau cho cả mô hình PyTorch và Ôm mặt, vì vậy chúng tôi sẽ không phân biệt giữa chúng bên dưới. Tuy nhiên, điều đáng chú ý là tại thời điểm viết bài này, suy luận không có máy chủ tùy chọn từ SageMaker không hỗ trợ GPU và do đó, chúng tôi loại trừ tùy chọn này cho trường hợp sử dụng này.

Suy luận thời gian thực

Chúng tôi có thể triển khai mô hình dưới dạng điểm cuối thời gian thực, cung cấp phản hồi tính bằng mili giây. Tuy nhiên, điều quan trọng cần lưu ý là tùy chọn này bị giới hạn ở việc xử lý đầu vào dưới 6 MB. Chúng tôi xác định serializer là một serializer âm thanh, chịu trách nhiệm chuyển đổi dữ liệu đầu vào sang định dạng phù hợp cho mô hình đã triển khai. Chúng tôi sử dụng phiên bản GPU để suy luận, cho phép xử lý nhanh các tệp âm thanh. Đầu vào suy luận là một tệp âm thanh từ kho lưu trữ cục bộ.

from sagemaker.serializers import DataSerializer
from sagemaker.deserializers import JSONDeserializer

# Define serializers and deserializer
audio_serializer = DataSerializer(content_type="audio/x-audio")
deserializer = JSONDeserializer()

# Deploy the model for real-time inference
endpoint_name = f'whisper-real-time-endpoint-{id}'

real_time_predictor = whisper_model.deploy(
    initial_instance_count=1,
    instance_type="ml.g4dn.xlarge",
    endpoint_name = endpoint_name,
    serializer=audio_serializer,
    deserializer = deserializer
    )

# Perform real-time inference
audio_path = "sample_audio.wav" 
response = real_time_predictor.predict(data=audio_path)

Công việc chuyển đổi hàng loạt

Tùy chọn suy luận thứ hai là công việc chuyển đổi hàng loạt, có khả năng xử lý tải trọng đầu vào lên tới 100 MB. Tuy nhiên, phương pháp này có thể mất một vài phút chờ đợi. Mỗi phiên bản chỉ có thể xử lý một yêu cầu hàng loạt tại một thời điểm và việc khởi động và tắt phiên bản cũng cần vài phút. Kết quả suy luận được lưu trong Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) sau khi hoàn thành công việc chuyển đổi hàng loạt.

Khi định cấu hình máy biến áp lô, hãy đảm bảo bao gồm max_payload = 100 để xử lý tải trọng lớn hơn một cách hiệu quả. Đầu vào suy luận phải là đường dẫn Amazon S3 tới tệp âm thanh hoặc thư mục Nhóm Amazon S3 chứa danh sách các tệp âm thanh, mỗi tệp có kích thước nhỏ hơn 100 MB.

Batch Transform phân vùng các đối tượng Amazon S3 trong đầu vào theo khóa và ánh xạ các đối tượng Amazon S3 tới các phiên bản. Ví dụ: khi bạn có nhiều tệp âm thanh, một phiên bản có thể xử lý input1.wav và một phiên bản khác có thể xử lý tệp có tên input2.wav để nâng cao khả năng mở rộng. Batch Transform cho phép bạn định cấu hình max_concurrent_transforms để tăng số lượng yêu cầu HTTP được thực hiện cho từng thùng chứa máy biến áp riêng lẻ. Tuy nhiên, điều quan trọng cần lưu ý là giá trị của (max_concurrent_transforms* max_payload) không được vượt quá 100 MB.

# Create a transformer
whisper_transformer = whisper_model.transformer(
    instance_count = 1,
    instance_type = "ml.g4dn.xlarge", 
    output_path="s3://{}/{}/batch-transform/".format(bucket, prefix),
    max_payload = 100
)
# Start batch transform job
whisper_transformer.transform(data = data, job_name= job_name, wait = False)

Suy luận không đồng bộ

Cuối cùng, Suy luận không đồng bộ của Amazon SageMaker là giải pháp lý tưởng để xử lý đồng thời nhiều yêu cầu, mang lại độ trễ vừa phải và hỗ trợ tải trọng đầu vào lên tới 1 GB. Tùy chọn này cung cấp khả năng mở rộng tuyệt vời, cho phép cấu hình nhóm tự động định tỷ lệ cho điểm cuối. Khi có nhiều yêu cầu xảy ra, nó sẽ tự động tăng quy mô để xử lý lưu lượng và sau khi tất cả yêu cầu được xử lý, điểm cuối sẽ giảm quy mô về 0 để tiết kiệm chi phí.

Bằng cách sử dụng suy luận không đồng bộ, kết quả sẽ tự động được lưu vào bộ chứa Amazon S3. bên trong AsyncInferenceConfig, bạn có thể định cấu hình thông báo để hoàn thành thành công hoặc không thành công. Đường dẫn đầu vào trỏ đến vị trí Amazon S3 của tệp âm thanh. Để biết thêm chi tiết, vui lòng tham khảo mã trên GitHub.

from sagemaker.async_inference import AsyncInferenceConfig

# Create an AsyncInferenceConfig object
async_config = AsyncInferenceConfig(
    output_path=f"s3://{bucket}/{prefix}/output", 
    max_concurrent_invocations_per_instance = 4,
    # notification_config = {
            #   "SuccessTopic": "arn:aws:sns:us-east-2:123456789012:MyTopic",
            #   "ErrorTopic": "arn:aws:sns:us-east-2:123456789012:MyTopic",
    #}, #  Notification configuration 
)

# Deploy the model for async inference
endpoint_name = f'whisper-async-endpoint-{id}'
async_predictor = whisper_model.deploy(
    async_inference_config=async_config,
    initial_instance_count=1, 
    instance_type ='ml.g4dn.xlarge',
    endpoint_name = endpoint_name
)

# Perform async inference
initial_args = {'ContentType':"audio/x-audio"}
response = async_predictor.predict_async(initial_args = initial_args, input_path=input_path)

Tùy chọn: Như đã đề cập trước đó, chúng tôi có tùy chọn định cấu hình nhóm tự động định tỷ lệ cho điểm cuối suy luận không đồng bộ, cho phép nhóm này xử lý sự gia tăng đột ngột trong các yêu cầu suy luận. Một ví dụ mã được cung cấp trong này Kho GitHub. Trong sơ đồ sau, bạn có thể quan sát biểu đồ đường hiển thị hai số liệu từ amazoncloudwatch: ApproximateBacklogSize và ApproximateBacklogSizePerInstance. Ban đầu, khi 1000 yêu cầu được kích hoạt, chỉ có một phiên bản có sẵn để xử lý suy luận. Trong ba phút, kích thước tồn đọng luôn vượt quá ba (xin lưu ý rằng những con số này có thể được định cấu hình) và nhóm tự động điều chỉnh quy mô đã phản hồi bằng cách tăng thêm các phiên bản bổ sung để giải quyết tồn đọng một cách hiệu quả. Điều này dẫn đến sự sụt giảm đáng kể về ApproximateBacklogSizePerInstance, cho phép xử lý các yêu cầu tồn đọng nhanh hơn nhiều so với giai đoạn đầu.

Hình 2. Biểu đồ đường minh họa những thay đổi tạm thời trong số liệu của Amazon CloudWatch

Phân tích so sánh cho các phương án suy luận

Việc so sánh các tùy chọn suy luận khác nhau dựa trên các trường hợp sử dụng xử lý âm thanh phổ biến. Suy luận thời gian thực cung cấp tốc độ suy luận nhanh nhất nhưng giới hạn kích thước tải trọng ở mức 6 MB. Kiểu suy luận này phù hợp với các hệ thống ra lệnh bằng âm thanh, nơi người dùng điều khiển hoặc tương tác với các thiết bị hoặc phần mềm bằng lệnh thoại hoặc hướng dẫn bằng giọng nói. Lệnh thoại thường có kích thước nhỏ và độ trễ suy luận thấp là rất quan trọng để đảm bảo rằng các lệnh được phiên âm có thể kích hoạt kịp thời các hành động tiếp theo. Batch Transform lý tưởng cho các tác vụ ngoại tuyến được lên lịch, khi kích thước của mỗi tệp âm thanh dưới 100 MB và không có yêu cầu cụ thể về thời gian phản hồi suy luận nhanh. Suy luận không đồng bộ cho phép tải lên tối đa 1 GB và cung cấp độ trễ suy luận vừa phải. Kiểu suy luận này rất phù hợp để sao chép phim, phim truyền hình dài tập và các hội nghị được ghi lại, nơi cần xử lý các tệp âm thanh lớn hơn.

Cả hai tùy chọn suy luận thời gian thực và không đồng bộ đều cung cấp khả năng tự động thay đổi quy mô, cho phép các phiên bản điểm cuối tự động tăng hoặc giảm quy mô dựa trên khối lượng yêu cầu. Trong trường hợp không có yêu cầu, tính năng tự động thay đổi quy mô sẽ loại bỏ các phiên bản không cần thiết, giúp bạn tránh được chi phí liên quan đến các phiên bản được cung cấp hiện không được sử dụng tích cực. Tuy nhiên, để suy luận theo thời gian thực, phải giữ lại ít nhất một phiên bản liên tục, điều này có thể dẫn đến chi phí cao hơn nếu điểm cuối hoạt động liên tục. Ngược lại, suy luận không đồng bộ cho phép giảm âm lượng phiên bản xuống 0 khi không sử dụng. Khi định cấu hình công việc chuyển đổi hàng loạt, có thể sử dụng nhiều phiên bản để xử lý công việc và điều chỉnh max_concurrent_transforms để cho phép một phiên bản xử lý nhiều yêu cầu. Do đó, cả ba tùy chọn suy luận đều có khả năng mở rộng tuyệt vời.

Dọn dẹp

Sau khi bạn đã hoàn tất việc sử dụng giải pháp, hãy đảm bảo xóa các điểm cuối SageMaker để tránh phát sinh thêm chi phí. Bạn có thể sử dụng mã được cung cấp để xóa các điểm cuối suy luận không đồng bộ và thời gian thực tương ứng.

# Delete real-time inference endpoint
real_time_predictor.delete_endpoint()

# Delete asynchronous inference endpoint
async_predictor.delete_endpoint()

Kết luận

Trong bài đăng này, chúng tôi đã cho bạn thấy việc triển khai các mô hình máy học để xử lý âm thanh ngày càng trở nên cần thiết trong các ngành công nghiệp khác nhau như thế nào. Lấy mô hình Whisper làm ví dụ, chúng tôi đã trình bày cách lưu trữ các mô hình ASR nguồn mở trên Amazon SageMaker bằng cách sử dụng các phương pháp PyTorch hoặc Hugging Face. Quá trình khám phá bao gồm nhiều tùy chọn suy luận khác nhau trên Amazon SageMaker, cung cấp thông tin chi tiết về cách xử lý dữ liệu âm thanh, đưa ra dự đoán và quản lý chi phí một cách hiệu quả. Bài đăng này nhằm mục đích cung cấp kiến thức cho các nhà nghiên cứu, nhà phát triển và nhà khoa học dữ liệu quan tâm đến việc tận dụng mô hình Whisper cho các tác vụ liên quan đến âm thanh và đưa ra quyết định sáng suốt về chiến lược suy luận.

Để biết thêm thông tin chi tiết về việc triển khai các mô hình trên SageMaker, vui lòng tham khảo phần này Hướng dẫn dành cho nhà phát triển. Ngoài ra, mô hình Whisper có thể được triển khai bằng SageMaker JumpStart. Để biết thêm chi tiết, vui lòng kiểm tra Các mô hình thì thầm để nhận dạng giọng nói tự động hiện có sẵn trên Amazon SageMaker JumpStart bài đăng.

Vui lòng kiểm tra sổ ghi chép và mã cho dự án này trên GitHub và chia sẻ nhận xét của bạn với chúng tôi.

Lưu ý

Ying Hou, Tiến sĩ, là Kiến trúc sư nguyên mẫu học máy tại AWS. Lĩnh vực quan tâm chính của cô bao gồm Deep Learning, tập trung vào GenAI, Thị giác máy tính, NLP và dự đoán dữ liệu chuỗi thời gian. Trong thời gian rảnh rỗi, cô thích dành những khoảnh khắc vui vẻ bên gia đình, đắm mình trong tiểu thuyết và đi bộ đường dài trong các công viên quốc gia của Vương quốc Anh.

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
nguồn: https://aws.amazon.com/blogs/machine-learning/host-the-whisper-model-on-amazon-sagemaker-exploring-inference-options/

Trí thông minh dữ liệu tạo

Lưu trữ Mô hình thì thầm trên Amazon SageMaker: khám phá các tùy chọn suy luận | Dịch vụ web của Amazon

Tổng quan về giải pháp

Hương

Lưu trữ Mô hình thì thầm trên Amazon SageMaker

Khung PyTorch

Khung ôm mặt

Khám phá các tùy chọn suy luận khác nhau trên Amazon SageMaker

Phân tích so sánh cho các phương án suy luận

Dọn dẹp

Kết luận

Lưu ý

quán cà phê VC

quán cà phê VC

Tin tức mới nhất

Cửa hàng Google Play hiện có thể tải xuống đồng thời nhiều ứng dụng Android

Mike Tyson giải thích lý do từ bỏ tình dục và cần sa trước trận đấu với Jake Paul vào ngày 20 tháng XNUMX – Kết nối Chương trình Cần sa Y tế

悉尼地铁西线新进展 CBD地铁站将建两座超50层高楼 | SBS Tiếng Trung – Kết nối chương trình cần sa y tế

🔴Ethereum ETF bị trì hoãn | Tuần này về tiền điện tử – ngày 11 tháng 2024 năm XNUMX

Khi ốm đau và sức khỏe: Hướng dẫn của người chăm sóc để tìm thấy sức mạnh và hy vọng – Báo cáo Tin tức Thế giới – Kết nối Chương trình Cần sa Y tế

Clean Group công bố địa điểm văn phòng mới tại khu trung tâm thành phố Sydney và các dịch vụ vệ sinh thương mại nâng cao – World News Report – Medical Marijuana Program Connection