Logo Zephyrnet

Thúc đẩy kết quả phân tích nâng cao trên quy mô lớn bằng cách sử dụng Bộ tăng tốc hoạt động học máy của PwC do Amazon SageMaker cung cấp | Dịch vụ web của Amazon

Ngày:

Bài đăng này được viết phối hợp với Ankur Goyal và Karthikeyan Chokappa từ bộ phận kinh doanh Đám mây & Kỹ thuật số của PwC Australia.

Trí tuệ nhân tạo (AI) và máy học (ML) đang trở thành một phần không thể thiếu của hệ thống và quy trình, cho phép đưa ra các quyết định trong thời gian thực, từ đó thúc đẩy các cải tiến hàng đầu và cuối cùng trong các tổ chức. Tuy nhiên, việc đưa mô hình ML vào sản xuất trên quy mô lớn là một thách thức và đòi hỏi một loạt các phương pháp thực hành tốt nhất. Nhiều doanh nghiệp đã có các nhà khoa học dữ liệu và kỹ sư ML có thể xây dựng các mô hình hiện đại, nhưng việc đưa mô hình vào sản xuất và duy trì mô hình trên quy mô lớn vẫn là một thách thức. Quy trình làm việc thủ công hạn chế các hoạt động trong vòng đời ML để làm chậm quá trình phát triển, tăng chi phí và ảnh hưởng đến chất lượng của sản phẩm cuối cùng.

Hoạt động học máy (MLOps) áp dụng các nguyên tắc DevOps cho hệ thống ML. Giống như DevOps kết hợp phát triển và vận hành cho công nghệ phần mềm, MLOps kết hợp kỹ thuật ML và hoạt động CNTT. Với sự phát triển nhanh chóng của các hệ thống ML và trong bối cảnh kỹ thuật ML, MLOps cung cấp các khả năng cần thiết để xử lý sự phức tạp đặc biệt của ứng dụng thực tế của hệ thống ML. Nhìn chung, các trường hợp sử dụng ML yêu cầu một giải pháp tích hợp sẵn có để công nghiệp hóa và hợp lý hóa quy trình đưa mô hình ML từ giai đoạn phát triển đến triển khai sản xuất trên quy mô lớn bằng MLOps.

Để giải quyết những thách thức này của khách hàng, PwC Australia đã phát triển Machine Learning Ops Accelerator như một tập hợp các khả năng công nghệ và quy trình được tiêu chuẩn hóa để cải thiện việc vận hành các mô hình AI/ML cho phép cộng tác đa chức năng giữa các nhóm trong suốt hoạt động của vòng đời ML. Bộ tăng tốc hoạt động học máy của PwC, được xây dựng dựa trên các dịch vụ gốc của AWS, cung cấp giải pháp phù hợp với mục đích, dễ dàng tích hợp vào các trường hợp sử dụng ML một cách dễ dàng cho khách hàng ở mọi ngành. Trong bài đăng này, chúng tôi tập trung vào việc xây dựng và triển khai trường hợp sử dụng ML tích hợp nhiều thành phần vòng đời khác nhau của mô hình ML, cho phép tích hợp liên tục (CI), phân phối liên tục (CD), đào tạo liên tục (CT) và giám sát liên tục (CM).

Tổng quan về giải pháp

Trong MLOps, hành trình thành công từ dữ liệu đến mô hình ML đến các đề xuất và dự đoán trong hệ thống và quy trình kinh doanh bao gồm một số bước quan trọng. Nó liên quan đến việc lấy kết quả của một thử nghiệm hoặc nguyên mẫu và biến nó thành một hệ thống sản xuất với các vòng kiểm soát, chất lượng và phản hồi tiêu chuẩn. Nó không chỉ là tự động hóa. Đó là về việc cải thiện các hoạt động của tổ chức và mang lại kết quả có thể lặp lại và tái tạo trên quy mô lớn.

Chỉ một phần nhỏ của trường hợp sử dụng ML trong thế giới thực bao gồm chính mô hình đó. Các thành phần khác nhau cần thiết để xây dựng khả năng ML nâng cao tích hợp và liên tục vận hành nó trên quy mô lớn được thể hiện trong Hình 1. Như được minh họa trong sơ đồ sau, Bộ tăng tốc MLOps của PwC bao gồm bảy khả năng tích hợp chính và các bước lặp lại cho phép CI, CD, CT và CM của trường hợp sử dụng ML. Giải pháp tận dụng các tính năng gốc của AWS từ Amazon SageMaker, xây dựng một khuôn khổ linh hoạt và có thể mở rộng xung quanh vấn đề này.

Khả năng tăng tốc hoạt động học máy của PwC

Hình 1 - Khả năng của Trình tăng tốc hoạt động học máy của PwC

Trong kịch bản doanh nghiệp thực tế, có thể tồn tại các bước và giai đoạn thử nghiệm bổ sung để đảm bảo xác thực nghiêm ngặt và triển khai các mô hình trên các môi trường khác nhau.

  1. Quản lý dữ liệu và mô hình cung cấp khả năng trung tâm quản lý các tạo phẩm ML trong suốt vòng đời của chúng. Nó cho phép kiểm toán, truy xuất nguồn gốc và tuân thủ. Nó cũng thúc đẩy khả năng chia sẻ, khả năng sử dụng lại và khả năng khám phá của tài sản ML.
  2. Phát triển mô hình ML cho phép nhiều cá nhân khác nhau phát triển một quy trình đào tạo mô hình mạnh mẽ và có thể tái tạo, bao gồm một chuỗi các bước, từ xác thực và chuyển đổi dữ liệu đến đào tạo và đánh giá mô hình.
  3. Tích hợp/phân phối liên tục tạo điều kiện thuận lợi cho việc xây dựng, thử nghiệm và đóng gói tự động hóa quy trình đào tạo mô hình và triển khai nó vào môi trường thực thi mục tiêu. Việc tích hợp với quy trình làm việc CI/CD và lập phiên bản dữ liệu thúc đẩy các phương pháp hay nhất của MLOps như quản trị và giám sát để phát triển lặp lại và tạo phiên bản dữ liệu.
  4. Đào tạo liên tục mô hình ML khả năng thực hiện quy trình đào tạo dựa trên các yếu tố kích hoạt đào tạo lại; nghĩa là khi có dữ liệu mới hoặc hiệu suất của mô hình giảm xuống dưới ngưỡng đặt trước. Nó đăng ký mô hình được đào tạo nếu nó đủ điều kiện là một ứng cử viên mô hình thành công và lưu trữ các tạo phẩm đào tạo cũng như siêu dữ liệu liên quan.
  5. Triển khai mô hình cho phép truy cập vào mô hình đã đào tạo đã đăng ký để xem xét và phê duyệt phát hành sản xuất, đồng thời cho phép đóng gói, thử nghiệm và triển khai mô hình vào môi trường dịch vụ dự đoán để phục vụ sản xuất.
  6. Dịch vụ dự đoán khả năng khởi động mô hình được triển khai để cung cấp dự đoán thông qua các mẫu trực tuyến, hàng loạt hoặc phát trực tuyến. Thời gian chạy phân phối cũng ghi lại nhật ký phân phối mô hình để liên tục theo dõi và cải tiến.
  7. Giám sát liên tục giám sát mô hình để biết hiệu quả dự đoán nhằm phát hiện sự suy giảm mô hình và hiệu quả dịch vụ (độ trễ, xuyên suốt quy trình và lỗi thực thi)

Kiến trúc Máy tăng tốc hoạt động học máy của PwC

Giải pháp này được xây dựng dựa trên các dịch vụ gốc AWS sử dụng Amazon SageMaker và công nghệ serverless để duy trì hiệu suất và khả năng mở rộng cao đồng thời chi phí vận hành ở mức thấp.

Kiến trúc của Bộ tăng tốc MLOps PwC

Hình 2 – Kiến trúc Máy tăng tốc hoạt động học máy của PwC 

  • PwC Machine Learning Ops Accelerator cung cấp quyền truy cập theo hướng cá nhân để xây dựng, sử dụng và vận hành, cho phép các kỹ sư ML và nhà khoa học dữ liệu tự động hóa việc triển khai quy trình (đào tạo và phục vụ) cũng như phản ứng nhanh chóng với những thay đổi về chất lượng mô hình. Trình quản lý vai trò Amazon SageMaker được sử dụng để triển khai hoạt động ML dựa trên vai trò và Amazon S3 được sử dụng để lưu trữ dữ liệu đầu vào và các tạo phẩm.
  • Giải pháp sử dụng tài sản tạo mô hình hiện có từ khách hàng và xây dựng một khuôn khổ linh hoạt và có thể mở rộng xung quanh vấn đề này bằng cách sử dụng các dịch vụ gốc của AWS. Các hoạt động tích hợp đã được xây dựng giữa Amazon S3, Git và AWS CodeCommit cho phép lập phiên bản tập dữ liệu với mức quản lý tối thiểu trong tương lai.
  • Mẫu AWS CloudFormation được tạo bằng cách sử dụng Bộ phát triển đám mây AWS (AWS CDK). AWS CDK cung cấp khả năng quản lý các thay đổi cho giải pháp hoàn chỉnh. Quy trình tự động bao gồm các bước để lưu trữ mô hình sẵn dùng và theo dõi số liệu.
  • Bộ tăng tốc MLOps của PwC được thiết kế theo mô-đun và được phân phối dưới dạng cơ sở hạ tầng dưới dạng mã (IaC) để cho phép triển khai tự động. Quá trình triển khai sử dụng Cam kết mã AWS, Xây dựng mã AWS, Đường ống dẫn mã AWSvà mẫu AWS CloudFormation. Giải pháp toàn diện hoàn chỉnh để vận hành mô hình ML có sẵn dưới dạng mã có thể triển khai.
  • Thông qua một loạt mẫu IaC, ba thành phần riêng biệt được triển khai: xây dựng mô hình, triển khai mô hình và giám sát và cung cấp dự đoán mô hình, sử dụng Đường ống Amazon SageMaker
    • Quy trình xây dựng mô hình tự động hóa quá trình đào tạo và đánh giá mô hình, đồng thời cho phép phê duyệt và đăng ký mô hình được đào tạo.
    • Quy trình triển khai mô hình cung cấp cơ sở hạ tầng cần thiết để triển khai mô hình ML cho suy luận hàng loạt và thời gian thực.
    • Quy trình phân phối dự đoán và giám sát mô hình triển khai cơ sở hạ tầng cần thiết để phục vụ các dự đoán và giám sát hiệu suất của mô hình.
  • Bộ tăng tốc MLOps của PwC được thiết kế để không phụ thuộc vào các mô hình ML, khung ML và môi trường thời gian chạy. Giải pháp này cho phép sử dụng các ngôn ngữ lập trình quen thuộc như Python và R, các công cụ phát triển như Jupyter Notebook và khung ML thông qua tệp cấu hình. Tính linh hoạt này giúp các nhà khoa học dữ liệu dễ dàng liên tục tinh chỉnh các mô hình và triển khai chúng bằng ngôn ngữ và môi trường ưa thích của họ.
  • Giải pháp này có tích hợp sẵn để sử dụng các công cụ dựng sẵn hoặc tùy chỉnh để phân công nhiệm vụ ghi nhãn bằng cách sử dụng Sự thật về mặt đất của Amazon SageMaker cho các tập dữ liệu đào tạo để cung cấp đào tạo và giám sát liên tục.
  • Quy trình ML đầu cuối được thiết kế bằng cách sử dụng các tính năng gốc của SageMaker (Xưởng sản xuất Amazon SageMaker , Đường ống xây dựng mô hình Amazon SageMaker, Thử nghiệm Amazon SageMakerĐiểm cuối Amazon SageMaker).
  • Giải pháp này sử dụng các khả năng tích hợp sẵn của Amazon SageMaker để lập phiên bản mô hình, theo dõi dòng mô hình, chia sẻ mô hình và suy luận serverless với Cơ quan đăng ký mô hình Amazon SageMaker.
  • Khi mô hình được đưa vào sản xuất, giải pháp sẽ liên tục giám sát chất lượng của mô hình ML trong thời gian thực. Giám sát mô hình Amazon SageMaker được sử dụng để giám sát liên tục các mô hình trong sản xuất. Amazon CloudWatch Logs được sử dụng để thu thập các tệp nhật ký theo dõi trạng thái mô hình và gửi thông báo bằng Amazon SNS khi chất lượng của mô hình đạt đến một số ngưỡng nhất định. Những người ghi nhật ký bản địa như (boto3) được sử dụng để nắm bắt trạng thái chạy nhằm đẩy nhanh quá trình khắc phục sự cố.

Hướng dẫn giải pháp

Hướng dẫn sau đây đi sâu vào các bước tiêu chuẩn để tạo quy trình MLOps cho một mô hình sử dụng Bộ tăng tốc MLOps PwC. Hướng dẫn này mô tả trường hợp sử dụng của một kỹ sư MLOps muốn triển khai quy trình cho mô hình ML được phát triển gần đây bằng cách sử dụng tệp định nghĩa/cấu hình đơn giản và trực quan.

Vòng đời quy trình của Trình tăng tốc MLOps PwC

Hình 3 – Vòng đời quy trình của PwC Machine Learning Ops Accelerator

  • Để bắt đầu, hãy đăng ký Công cụ tăng tốc MLOps của PwC để có quyền truy cập vào các tạo phẩm giải pháp. Toàn bộ giải pháp được điều khiển từ một tệp YAML cấu hình (config.yaml) cho mỗi mô hình. Tất cả các chi tiết cần thiết để chạy giải pháp đều có trong tệp cấu hình đó và được lưu trữ cùng với mô hình trong kho lưu trữ Git. Tệp cấu hình sẽ đóng vai trò là đầu vào để tự động hóa các bước quy trình làm việc bằng cách đưa các tham số và cài đặt quan trọng ra bên ngoài mã.
  • Kỹ sư ML được yêu cầu điền config.yaml tập tin và kích hoạt đường dẫn MLOps. Khách hàng có thể định cấu hình tài khoản AWS, kho lưu trữ, mô hình, dữ liệu được sử dụng, tên quy trình, khung đào tạo, số lượng phiên bản sẽ sử dụng cho đào tạo, khung suy luận và mọi bước trước và sau xử lý cũng như một số bước khác cấu hình để kiểm tra chất lượng mô hình, độ lệch và khả năng giải thích.
Cấu hình Trình tăng tốc hoạt động học máy YAML

Hình 4 – Cấu hình của Bộ tăng tốc hoạt động học máy YAML                                               

  • Một tệp YAML đơn giản được sử dụng để định cấu hình các yêu cầu đào tạo, triển khai, giám sát và thời gian chạy của từng mô hình. Một khi config.yaml được cấu hình phù hợp và được lưu cùng với mô hình trong kho Git của chính nó, bộ điều phối xây dựng mô hình sẽ được gọi. Nó cũng có thể đọc từ Mô hình mang theo của riêng bạn có thể được định cấu hình thông qua YAML để kích hoạt triển khai quy trình xây dựng mô hình.
  • Mọi thứ sau thời điểm này đều được giải pháp tự động hóa và không cần sự tham gia của kỹ sư ML hoặc nhà khoa học dữ liệu. Quy trình chịu trách nhiệm xây dựng mô hình ML bao gồm tiền xử lý dữ liệu, đào tạo mô hình, đánh giá mô hình và xử lý dữ liệu. Nếu mô hình vượt qua các bài kiểm tra hiệu suất và chất lượng tự động, mô hình sẽ được lưu vào sổ đăng ký và các thành phần lạ được ghi vào bộ lưu trữ Amazon S3 theo định nghĩa trong tệp YAML. Điều này kích hoạt việc tạo quy trình triển khai mô hình cho mô hình ML đó.
Quy trình triển khai mô hình mẫu

Hình 5 – Quy trình triển khai mô hình mẫu                                                      

  • Tiếp theo, một mẫu triển khai tự động sẽ cung cấp mô hình trong môi trường chạy thử với điểm cuối trực tiếp. Sau khi được phê duyệt, mô hình sẽ tự động được triển khai vào môi trường sản xuất.
  • Giải pháp triển khai hai đường ống được liên kết. Việc cung cấp dự đoán triển khai một điểm cuối trực tiếp có thể truy cập được thông qua đó các dự đoán có thể được cung cấp. Giám sát mô hình tạo ra một công cụ giám sát liên tục để tính toán các số liệu chất lượng và hiệu suất chính của mô hình, kích hoạt đào tạo lại mô hình nếu phát hiện thấy sự thay đổi đáng kể về chất lượng mô hình.
  • Bây giờ bạn đã hoàn tất quá trình tạo và triển khai ban đầu, kỹ sư MLOps có thể định cấu hình các cảnh báo lỗi để được cảnh báo về các sự cố, chẳng hạn như khi một quy trình không thực hiện được công việc dự kiến.
  • MLOps không còn liên quan đến việc đóng gói, thử nghiệm và triển khai các thành phần dịch vụ đám mây tương tự như triển khai CI/CD truyền thống; đó là một hệ thống sẽ tự động triển khai một dịch vụ khác. Ví dụ: quy trình đào tạo mô hình sẽ tự động triển khai quy trình triển khai mô hình để kích hoạt dịch vụ dự đoán, từ đó kích hoạt dịch vụ giám sát mô hình.

Kết luận

Tóm lại, MLOps rất quan trọng đối với bất kỳ tổ chức nào muốn triển khai các mô hình ML trong hệ thống sản xuất ở quy mô lớn. PwC đã phát triển một công cụ tăng tốc để tự động hóa việc xây dựng, triển khai và duy trì các mô hình ML thông qua việc tích hợp các công cụ DevOps vào quy trình phát triển mô hình.

Trong bài đăng này, chúng tôi đã khám phá cách giải pháp PwC được hỗ trợ bởi các dịch vụ ML gốc của AWS và giúp áp dụng các biện pháp thực hành MLOps để các doanh nghiệp có thể tăng tốc hành trình AI và thu được nhiều giá trị hơn từ các mô hình ML của họ. Chúng tôi đã hướng dẫn các bước mà người dùng sẽ thực hiện để truy cập vào Công cụ tăng tốc hoạt động học máy của PwC, chạy quy trình và triển khai trường hợp sử dụng ML tích hợp nhiều thành phần vòng đời khác nhau của mô hình ML.

Để bắt đầu hành trình MLOps trên Đám mây AWS trên quy mô lớn và chạy khối lượng công việc sản xuất ML của bạn, hãy đăng ký Hoạt động học máy của PwC.


Về các tác giả

 Kiran Kumar Ballari là Kiến trúc sư giải pháp chính tại Amazon Web Services (AWS). Anh ấy là một nhà truyền giáo thích giúp đỡ khách hàng tận dụng các công nghệ mới và xây dựng các giải pháp có thể lặp lại trong ngành để giải quyết các vấn đề của họ. Anh ấy đặc biệt đam mê công nghệ phần mềm, Generative AI và giúp các công ty phát triển sản phẩm AI/ML.

Ankur Goyal là giám đốc phụ trách mảng Kỹ thuật số và Đám mây của PwC Australia, tập trung vào Dữ liệu, Phân tích & AI. Ankur có nhiều kinh nghiệm trong việc hỗ trợ các tổ chức khu vực công và tư nhân trong việc thúc đẩy chuyển đổi công nghệ và thiết kế các giải pháp đổi mới bằng cách tận dụng tài sản và công nghệ dữ liệu.

Karthikeyan Chokappa (KC) là Giám đốc phụ trách mảng Kỹ thuật số và Đám mây của PwC Australia, tập trung vào Dữ liệu, Phân tích & AI. KC đam mê thiết kế, phát triển và triển khai các giải pháp phân tích toàn diện nhằm chuyển đổi dữ liệu thành tài sản quyết định có giá trị nhằm cải thiện hiệu suất và mức sử dụng, đồng thời giảm tổng chi phí sở hữu cho những thứ thông minh và được kết nối.

Rama Lankalapalli là Kiến trúc sư giải pháp đối tác cấp cao tại AWS, làm việc với PwC để đẩy nhanh quá trình di chuyển và hiện đại hóa của khách hàng sang AWS. Anh làm việc ở nhiều ngành khác nhau để đẩy nhanh quá trình áp dụng Đám mây AWS của họ. Chuyên môn của ông nằm ở việc kiến ​​trúc các giải pháp đám mây hiệu quả và có thể mở rộng, thúc đẩy đổi mới và hiện đại hóa các ứng dụng của khách hàng bằng cách tận dụng các dịch vụ AWS và thiết lập nền tảng đám mây linh hoạt.

Jeejee Unwalla là Kiến trúc sư giải pháp cấp cao tại AWS, người thích hướng dẫn khách hàng giải quyết các thách thức và tư duy chiến lược. Anh ấy đam mê công nghệ, dữ liệu và thúc đẩy sự đổi mới.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img