Logo Zephyrnet

Thông báo tính khả dụng của các phiên bản Inf1 trong Amazon SageMaker để có hiệu suất cao và suy luận máy học hiệu quả về chi phí

Ngày:

Amazon SageMaker là một dịch vụ được quản lý hoàn toàn, cung cấp cho mọi nhà phát triển và nhà khoa học dữ liệu khả năng xây dựng, đào tạo và triển khai các mô hình máy học (ML) một cách nhanh chóng. hàng chục ngàn khách hàng, bao gồm Intuit, Voodoo, ADP, Cerner, Dow Jones và Thompson Reuters, hãy sử dụng Amazon SageMaker để loại bỏ công việc nặng nhọc khỏi từng bước của quy trình ML.

Khi nói đến việc triển khai các mô hình ML để dự đoán theo thời gian thực, Amazon SageMaker cung cấp cho bạn nhiều lựa chọn AWS các loại cá thể, từ phiên bản CPU nhỏ đến phiên bản đa GPU. Điều này cho phép bạn tìm thấy tỷ lệ chi phí/hiệu suất phù hợp cho cơ sở hạ tầng dự đoán của mình. Hôm nay chúng tôi thông báo về sự sẵn có của thông tin1 trong Amazon SageMaker để mang lại hiệu suất cao, độ trễ thấp và suy luận tiết kiệm chi phí.

Thông tin cơ bản về các phiên bản Amazon EC2 Inf1

Sản phẩm Amazon EC2 Inf1 trường hợp là phát động tại AWS re:Invent 2019. Phiên bản Inf1 được cung cấp bởi Suy luận AWS, một chip tùy chỉnh do AWS xây dựng từ đầu để tăng tốc khối lượng công việc suy luận máy học. Khi so sánh với các phiên bản G4, thông tin1 các phiên bản cung cấp thông lượng suy luận gấp ba lần và chi phí mỗi lần suy luận thấp hơn tới 45%.

Phiên bản Inf1 có nhiều kích cỡ, với 1, 4 hoặc 16 chip AWS Inferentia. Một chip AWS Inferentia chứa bốn Lõi thần kinh. Mỗi công cụ triển khai một công cụ nhân ma trận mảng tâm thu hiệu suất cao, giúp tăng tốc đáng kể các hoạt động học sâu điển hình như tích chập và biến áp. Các NeuronCore cũng được trang bị bộ nhớ đệm lớn trên chip, giúp cắt giảm truy cập bộ nhớ ngoài và tiết kiệm thời gian I/O trong quy trình.

Khi một số chip AWS Inferentia khả dụng trên phiên bản Inf1, bạn có thể phân vùng một mô hình trên chúng và lưu trữ toàn bộ mô hình đó trong bộ nhớ cache. Ngoài ra, để cung cấp các dự đoán cho nhiều mô hình từ một phiên bản Inf1 duy nhất, bạn có thể phân vùng các Lõi thần kinh của chip AWS Inferentia trên nhiều mô hình.

Để chạy các mô hình máy học trên các phiên bản Inf1, bạn cần biên dịch các mô hình thành biểu diễn được tối ưu hóa cho phần cứng bằng cách sử dụng SDK thần kinh AWS. Kể từ khi ra mắt phiên bản Inf1, AWS đã phát hành 50 phiên bản AWS Neuron SDK tập trung vào cải tiến hiệu suất và các tính năng mới, với kế hoạch bổ sung nhiều phiên bản khác theo nhịp độ thông thường. Ví dụ: hiệu suất phân loại hình ảnh (ResNet-2) đã được cải thiện hơn 1100 lần, từ 2300 lên 45 hình ảnh/giây trên một chip AWS Inferentia. Sự cải thiện hiệu suất này giúp chi phí mỗi lần suy luận thấp hơn 4% so với các phiên bản GXNUMX. Hỗ trợ cho các mô hình phát hiện đối tượng bắt đầu với Single Shot Detection (SSD) cũng được thêm vào, với Mask R-CNN sắp ra mắt.

Bây giờ, hãy để chúng tôi chỉ cho bạn cách bạn có thể dễ dàng biên dịch, tải và chạy các mô hình trên các phiên bản ml.Inf1 trong Amazon SageMaker.

Sử dụng các phiên bản Inf1 trong Amazon SageMaker

Việc biên dịch và triển khai các mô hình cho phiên bản Inf1 trong Amazon SageMaker thật đơn giản nhờ Amazon SageMaker Neo. AWS Neuron SDK được tích hợp với Amazon SageMaker Neo để chạy mô hình của bạn một cách tối ưu trên các phiên bản Inf1 trong Amazon SageMaker. Bạn chỉ cần hoàn thành các bước sau:

  1. Đào tạo mô hình của bạn như bình thường.
  2. Biên dịch mô hình của bạn cho kiến ​​trúc Inf1 với Amazon SageMaker Neo.
  3. Triển khai mô hình của bạn trên các phiên bản Inf1 trong Amazon SageMaker.

Trong trường hợp sử dụng ví dụ sau, bạn đào tạo một trình phân loại hình ảnh TensorFlow đơn giản trên tập dữ liệu MNIST, như trong trường hợp này mẫu máy tính xách tay trên GitHub. Mã đào tạo sẽ giống như sau:

from sagemaker.tensorflow import TensorFlow
mnist_estimator = TensorFlow(entry_point='mnist.py', ...)
mnist_estimator.fit(inputs)

Để biên dịch mô hình cho phiên bản Inf1, bạn thực hiện một lệnh gọi API và chọn ml_inf1 làm mục tiêu triển khai. Xem đoạn mã sau:

# S3 bucket where the compiled model is saved
output_path ='/'.join(mnist_estimator.output_path.split('/')[:-1]) # Compile the model for Inf1 instances
optimized_estimator = mnist_estimator.compile_model(target_instance_family='ml_inf1', input_shape={'data':[1, 784]}, # Batch size 1,28x28 pixels flattened output_path=output_path, framework='tensorflow', framework_version='1.15.0')

Khi mô hình máy học đã được biên dịch, bạn triển khai mô hình trên phiên bản Inf1 trong Amazon SageMaker bằng cách sử dụng công cụ ước tính được tối ưu hóa từ Amazon SageMaker Neo. Về cơ bản, khi tạo điểm cuối suy luận, Amazon SageMaker sẽ tự động chọn vùng chứa có Thời gian chạy Neo Deep Learning, một thời gian chạy nhẹ sẽ tải và gọi mô hình được tối ưu hóa để suy luận.

optimized_predictor = optimized_estimator.deploy(initial_instance_count = 1, instance_type = 'ml.inf1.xlarge')

Đó là nó! Sau khi triển khai mô hình, bạn có thể gọi điểm cuối và nhận các dự đoán trong thời gian thực với độ trễ thấp. Bạn có thể tìm thấy một ví dụ đầy đủ về Github.

Bắt đầu

Các phiên bản Inf1 trong Amazon SageMaker có sẵn ở bốn kích cỡ: ml.inf1.xlarge, ml.inf1.2xlarge, ml.inf1.6xlarge và ml.inf1.24xlarge. Các mô hình máy học được phát triển bằng khung TensorFlow và MxNet có thể được biên dịch bằng Amazon SageMaker Neo để chạy tối ưu trên các phiên bản Inf1 và được triển khai trên các phiên bản Inf1 trong Amazon SageMaker để suy luận theo thời gian thực. Bạn có thể bắt đầu sử dụng các phiên bản Inf1 trong Amazon SageMaker ngay hôm nay tại Khu vực Miền Đông Hoa Kỳ (Bắc Virginia) và Miền Tây Hoa Kỳ (Oregon).


Lưu ý

Julien Simon là Nhà truyền giáo về Trí tuệ nhân tạo & Máy học cho EMEA, Julien tập trung vào việc giúp các nhà phát triển và doanh nghiệp biến ý tưởng của họ thành hiện thực.

Nguồn: https://aws.amazon.com/blogs/machine-learning/announce-availability-of-inf1-instances-in-amazon-sagemaker-for-high-performance-and-cost-efficiency-machine-learning- sự suy luận/

tại chỗ_img

Tin tức mới nhất

tại chỗ_img

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?