Quản lý vòng đời ML trên quy mô lớn, Phần 1: Khung kiến trúc khối lượng công việc ML bằng Amazon SageMaker | Dịch vụ web của Amazon

Khách hàng thuộc mọi quy mô và ngành nghề đang đổi mới trên AWS bằng cách đưa công nghệ máy học (ML) vào các sản phẩm và dịch vụ của họ. Những phát triển gần đây trong các mô hình AI tổng quát đã thúc đẩy hơn nữa nhu cầu áp dụng ML trong các ngành công nghiệp. Tuy nhiên, việc triển khai các biện pháp kiểm soát bảo mật, quyền riêng tư dữ liệu và quản trị vẫn là những thách thức chính mà khách hàng phải đối mặt khi triển khai khối lượng công việc ML trên quy mô lớn. Việc giải quyết những thách thức đó sẽ xây dựng khuôn khổ và nền tảng để giảm thiểu rủi ro và sử dụng có trách nhiệm các sản phẩm do ML điều khiển. Mặc dù AI tổng quát có thể cần có các biện pháp kiểm soát bổ sung, chẳng hạn như loại bỏ độc tính, ngăn chặn việc bẻ khóa và ảo giác, nhưng nó có chung các thành phần nền tảng về bảo mật và quản trị như ML truyền thống.

Chúng tôi nhận được phản hồi từ khách hàng rằng họ yêu cầu kiến thức chuyên môn và khoản đầu tư lên tới 12 tháng để xây dựng hệ thống tùy chỉnh của họ. Amazon SageMaker Triển khai nền tảng ML để đảm bảo môi trường ML có thể mở rộng, đáng tin cậy, an toàn và được quản lý cho các ngành kinh doanh (LOB) hoặc nhóm ML của họ. Nếu thiếu khuôn khổ để quản lý vòng đời ML trên quy mô lớn, bạn có thể gặp phải các thách thức như cách ly tài nguyên ở cấp độ nhóm, mở rộng quy mô tài nguyên thử nghiệm, vận hành quy trình công việc ML, quản trị mô hình mở rộng quy mô cũng như quản lý tính bảo mật và tuân thủ của khối lượng công việc ML.

Quản lý vòng đời ML trên quy mô lớn là một khuôn khổ giúp bạn xây dựng nền tảng ML với các biện pháp kiểm soát quản trị và bảo mật được nhúng dựa trên các phương pháp hay nhất trong ngành và tiêu chuẩn doanh nghiệp. Khung này giải quyết các thách thức bằng cách cung cấp hướng dẫn mang tính quy định thông qua cách tiếp cận khung mô-đun mở rộng Tháp điều khiển AWS môi trường AWS nhiều tài khoản và cách tiếp cận được thảo luận trong bài viết Thiết lập môi trường machine learning an toàn, được quản lý tốt trên AWS.

Nó cung cấp hướng dẫn mang tính quy định cho các chức năng nền tảng ML sau:

Nền tảng đa tài khoản, bảo mật và kết nối mạng – Chức năng này sử dụng Tháp điều khiển AWS và nguyên tắc kiến trúc tốt để thiết lập và vận hành các dịch vụ môi trường, bảo mật và mạng đa tài khoản.
Nền tảng dữ liệu và quản trị – Chức năng này sử dụng một kiến trúc lưới dữ liệu để thiết lập và vận hành hồ dữ liệu, kho tính năng trung tâm và nền tảng quản trị dữ liệu nhằm cho phép truy cập dữ liệu chi tiết.
Dịch vụ quản trị và chia sẻ nền tảng ML – Chức năng này cho phép thiết lập và vận hành các dịch vụ phổ biến như CI/CD, Danh mục dịch vụ AWS để cung cấp môi trường và cơ quan đăng ký mô hình trung tâm để quảng bá mô hình và dòng dõi.
Môi trường nhóm ML – Chức năng này cho phép thiết lập và vận hành môi trường cho các nhóm ML để phát triển mô hình, thử nghiệm và triển khai các trường hợp sử dụng của họ để nhúng các biện pháp kiểm soát quản trị và bảo mật.
Khả năng quan sát nền tảng ML – Chức năng này giúp khắc phục sự cố và xác định nguyên nhân cốt lõi của sự cố trong mô hình ML thông qua việc tập trung nhật ký và cung cấp các công cụ để trực quan hóa phân tích nhật ký. Nó cũng cung cấp hướng dẫn tạo báo cáo chi phí và mức sử dụng cho các trường hợp sử dụng ML.

Mặc dù khuôn khổ này có thể mang lại lợi ích cho tất cả khách hàng, nhưng nó có lợi nhất cho các khách hàng doanh nghiệp lớn, trưởng thành, được quản lý hoặc toàn cầu muốn mở rộng chiến lược ML của họ theo cách tiếp cận được kiểm soát, tuân thủ và phối hợp trong toàn tổ chức. Nó giúp cho phép áp dụng ML đồng thời giảm thiểu rủi ro. Khung này hữu ích cho các khách hàng sau:

Khách hàng doanh nghiệp lớn có nhiều LOB hoặc bộ phận quan tâm đến việc sử dụng ML. Khung này cho phép các nhóm khác nhau xây dựng và triển khai các mô hình ML một cách độc lập đồng thời cung cấp khả năng quản trị tập trung.
Khách hàng doanh nghiệp có mức độ trưởng thành trong ML từ trung bình đến cao. Họ đã triển khai một số mô hình ML ban đầu và đang tìm cách mở rộng quy mô nỗ lực ML của mình. Khung này có thể giúp đẩy nhanh việc áp dụng ML trong toàn tổ chức. Các công ty này cũng nhận ra sự cần thiết của quản trị để quản lý những thứ như kiểm soát truy cập, sử dụng dữ liệu, hiệu suất mô hình và thành kiến không công bằng.
Các công ty trong các ngành được quản lý như dịch vụ tài chính, chăm sóc sức khỏe, hóa học và khu vực tư nhân. Các công ty này cần khả năng quản trị và kiểm tra mạnh mẽ đối với bất kỳ mô hình ML nào được sử dụng trong quy trình kinh doanh của họ. Việc áp dụng khuôn khổ này có thể giúp tạo điều kiện thuận lợi cho việc tuân thủ trong khi vẫn cho phép phát triển mô hình địa phương.
Các tổ chức toàn cầu cần cân bằng giữa kiểm soát tập trung và địa phương. Cách tiếp cận liên kết của khung này cho phép nhóm kỹ thuật nền tảng trung tâm thiết lập một số chính sách và tiêu chuẩn cấp cao, nhưng cũng mang lại cho các nhóm LOB sự linh hoạt để thích ứng dựa trên nhu cầu địa phương.

Trong phần đầu tiên của loạt bài này, chúng ta sẽ tìm hiểu kiến trúc tham khảo để thiết lập nền tảng ML. Trong bài đăng sau, chúng tôi sẽ cung cấp hướng dẫn mang tính quy định về cách triển khai các mô-đun khác nhau trong kiến trúc tham chiếu trong tổ chức của bạn.

Các khả năng của nền tảng ML được nhóm thành bốn loại, như thể hiện trong hình sau. Những khả năng này tạo thành nền tảng của kiến trúc tham chiếu được thảo luận sau trong bài viết này:

Xây dựng nền tảng ML
Mở rộng quy mô hoạt động ML
ML có thể quan sát được
ML an toàn

Tổng quan về giải pháp

Khung quản lý vòng đời ML ở quy mô lớn cho phép các tổ chức nhúng các biện pháp kiểm soát bảo mật và quản trị trong suốt vòng đời ML, từ đó giúp các tổ chức giảm thiểu rủi ro và đẩy nhanh việc đưa ML vào các sản phẩm và dịch vụ của họ. Khung này giúp tối ưu hóa việc thiết lập và quản trị các môi trường ML an toàn, có thể mở rộng và đáng tin cậy, có thể mở rộng quy mô để hỗ trợ số lượng mô hình và dự án ngày càng tăng. Khung này cho phép các tính năng sau:

Cung cấp tài khoản và cơ sở hạ tầng với các tài nguyên cơ sở hạ tầng tuân thủ chính sách tổ chức
Triển khai tự phục vụ các môi trường khoa học dữ liệu và các mẫu hoạt động ML từ đầu đến cuối (MLOps) cho các trường hợp sử dụng ML
Cách ly tài nguyên ở cấp LOB hoặc cấp nhóm để tuân thủ bảo mật và quyền riêng tư
Quyền truy cập được quản lý vào dữ liệu cấp sản xuất cho quy trình thử nghiệm và sẵn sàng sản xuất
Quản lý và quản trị kho mã, quy trình mã, mô hình đã triển khai và tính năng dữ liệu
Một mô hình đăng ký và kho lưu trữ tính năng (các thành phần cục bộ và trung tâm) để cải thiện quản trị
Kiểm soát bảo mật và quản trị cho quá trình triển khai và phát triển mô hình từ đầu đến cuối

Trong phần này, chúng tôi cung cấp thông tin tổng quan về hướng dẫn mang tính quy định để giúp bạn xây dựng nền tảng ML này trên AWS với các biện pháp kiểm soát quản trị và bảo mật tích hợp.

Kiến trúc chức năng liên kết với nền tảng ML được hiển thị trong sơ đồ sau. Kiến trúc ánh xạ các khả năng khác nhau của nền tảng ML tới các tài khoản AWS.

Kiến trúc chức năng với các khả năng khác nhau được triển khai bằng cách sử dụng một số dịch vụ AWS, bao gồm Tổ chức AWS, SageMaker, dịch vụ AWS DevOps và hồ dữ liệu. Kiến trúc tham chiếu cho nền tảng ML với nhiều dịch vụ AWS khác nhau được hiển thị trong sơ đồ sau.

Khung này xem xét nhiều cá nhân và dịch vụ để quản lý vòng đời ML trên quy mô lớn. Chúng tôi khuyên bạn nên thực hiện các bước sau để tổ chức nhóm và dịch vụ của mình:

Bằng cách sử dụng Tháp điều khiển AWS và công cụ tự động hóa, quản trị viên đám mây của bạn sẽ thiết lập nền tảng đa tài khoản như Tổ chức và Trung tâm nhận dạng AWS IAM (kế thừa của AWS Single Sign-On) và các dịch vụ bảo mật và quản trị như Dịch vụ quản lý khóa AWS (AWS KMS) và Danh mục dịch vụ. Ngoài ra, quản trị viên còn thiết lập nhiều đơn vị tổ chức (OU) và tài khoản ban đầu để hỗ trợ quy trình làm việc ML và phân tích của bạn.
Quản trị viên hồ dữ liệu thiết lập hồ dữ liệu và danh mục dữ liệu của bạn, đồng thời thiết lập kho tính năng trung tâm làm việc với quản trị viên nền tảng ML.
Quản trị viên nền tảng ML cung cấp các dịch vụ chia sẻ ML như Cam kết mã AWS, Đường ống dẫn mã AWS, Đăng ký container đàn hồi Amazon (Amazon ECR), cơ quan đăng ký mô hình trung tâm, Thẻ mô hình SageMaker, Bảng điều khiển mô hình SageMakervà các sản phẩm Danh mục dịch vụ dành cho nhóm ML.
Nhóm ML dẫn đầu các liên kết thông qua Trung tâm nhận dạng IAM, sử dụng các sản phẩm Danh mục dịch vụ và cung cấp tài nguyên trong môi trường phát triển của nhóm ML.
Các nhà khoa học dữ liệu từ các nhóm ML ở các đơn vị kinh doanh khác nhau liên kết với môi trường phát triển của nhóm họ để xây dựng quy trình mô hình.
Các nhà khoa học dữ liệu tìm kiếm và lấy các tính năng từ danh mục cửa hàng tính năng trung tâm, xây dựng mô hình thông qua thử nghiệm và chọn mô hình tốt nhất để quảng bá.
Các nhà khoa học dữ liệu tạo và chia sẻ các tính năng mới vào danh mục cửa hàng tính năng trung tâm để tái sử dụng.
Một kỹ sư ML triển khai quy trình mô hình vào môi trường thử nghiệm của nhóm ML bằng cách sử dụng quy trình CI/CD dịch vụ dùng chung.
Sau khi xác thực của các bên liên quan, mô hình ML được triển khai vào môi trường sản xuất của nhóm.
Các biện pháp kiểm soát bảo mật và quản trị được nhúng vào mọi lớp của kiến trúc này bằng cách sử dụng các dịch vụ như Trung tâm bảo mật AWS, nhiệm vụ bảo vệ amazon, Macie Amazon, Và nhiều hơn nữa.
Các biện pháp kiểm soát bảo mật được quản lý tập trung từ tài khoản công cụ bảo mật bằng Security Hub.
Các khả năng quản trị nền tảng ML như Thẻ mô hình SageMaker và Bảng thông tin mô hình SageMaker được quản lý tập trung từ tài khoản dịch vụ quản trị.
amazoncloudwatch và Đường mòn đám mây AWS nhật ký từ mỗi tài khoản thành viên có thể được truy cập tập trung từ tài khoản có khả năng quan sát bằng các dịch vụ gốc của AWS.

Tiếp theo, chúng ta đi sâu vào các mô-đun của kiến trúc tham chiếu cho khung này.

Mô-đun kiến trúc tham khảo

Kiến trúc tham chiếu bao gồm tám mô-đun, mỗi mô-đun được thiết kế để giải quyết một nhóm vấn đề cụ thể. Nói chung, các mô-đun này giải quyết vấn đề quản trị trên nhiều khía cạnh khác nhau, chẳng hạn như cơ sở hạ tầng, dữ liệu, mô hình và chi phí. Mỗi mô-đun cung cấp một bộ chức năng riêng biệt và tương tác với các mô-đun khác để cung cấp nền tảng ML toàn diện tích hợp với các biện pháp kiểm soát quản trị và bảo mật được nhúng. Trong phần này, chúng tôi trình bày bản tóm tắt ngắn gọn về khả năng của từng mô-đun.

Nền tảng nhiều tài khoản

Mô-đun này giúp quản trị viên đám mây xây dựng một Khu vực hạ cánh của Tháp điều khiển AWS như một khuôn khổ nền tảng. Điều này bao gồm xây dựng cấu trúc nhiều tài khoản, xác thực và ủy quyền thông qua Trung tâm nhận dạng IAM, thiết kế mạng trung tâm, dịch vụ ghi nhật ký tập trung và tài khoản thành viên AWS mới với các đường cơ sở quản trị và bảo mật được tiêu chuẩn hóa.

Ngoài ra, mô-đun này cung cấp hướng dẫn thực hành tốt nhất về OU và cấu trúc tài khoản phù hợp để hỗ trợ quy trình công việc ML và phân tích của bạn. Quản trị viên đám mây sẽ hiểu mục đích của các tài khoản và OU được yêu cầu, cách triển khai chúng cũng như các dịch vụ tuân thủ và bảo mật chính mà họ nên sử dụng để quản lý tập trung khối lượng công việc ML và phân tích của mình.

Một khuôn khổ để bán các tài khoản mới cũng được đề cập, sử dụng tính năng tự động hóa để tạo cơ sở cho các tài khoản mới khi chúng được cung cấp. Bằng cách thiết lập quy trình cấp tài khoản tự động, quản trị viên đám mây có thể cung cấp cho nhóm ML và phân tích những tài khoản họ cần để thực hiện công việc nhanh hơn mà không phải hy sinh nền tảng quản trị vững chắc.

Nền tảng hồ dữ liệu

Mô-đun này giúp quản trị viên hồ dữ liệu thiết lập hồ dữ liệu để nhập dữ liệu, quản lý bộ dữ liệu và sử dụng Sự hình thành hồ AWS mô hình quản trị để quản lý quyền truy cập dữ liệu chi tiết giữa các tài khoản và người dùng bằng cách sử dụng danh mục dữ liệu tập trung, chính sách truy cập dữ liệu và kiểm soát quyền truy cập dựa trên thẻ. Bạn có thể bắt đầu với quy mô nhỏ bằng một tài khoản dành cho nền tảng nền tảng dữ liệu của mình để chứng minh khái niệm hoặc một vài khối lượng công việc nhỏ. Để triển khai khối lượng công việc sản xuất ở quy mô vừa và lớn, chúng tôi khuyên bạn nên áp dụng chiến lược nhiều tài khoản. Trong cài đặt như vậy, LOB có thể đảm nhận vai trò là nhà sản xuất dữ liệu và người tiêu dùng dữ liệu bằng cách sử dụng các tài khoản AWS khác nhau và việc quản trị hồ dữ liệu được vận hành từ tài khoản AWS chung. Nhà sản xuất dữ liệu thu thập, xử lý và lưu trữ dữ liệu từ miền dữ liệu của họ, ngoài việc giám sát và đảm bảo chất lượng tài sản dữ liệu của họ. Người tiêu dùng dữ liệu sử dụng dữ liệu từ nhà sản xuất dữ liệu sau khi danh mục tập trung chia sẻ dữ liệu đó bằng cách sử dụng Lake Formation. Danh mục tập trung lưu trữ và quản lý danh mục dữ liệu dùng chung cho các tài khoản nhà sản xuất dữ liệu.

Dịch vụ nền tảng ML

Mô-đun này giúp nhóm kỹ thuật nền tảng ML thiết lập các dịch vụ dùng chung được nhóm khoa học dữ liệu sử dụng trên tài khoản nhóm của họ. Các dịch vụ bao gồm danh mục Danh mục dịch vụ với các sản phẩm dành cho Miền SageMaker triển khai, Hồ sơ người dùng miền SageMaker triển khai, các mẫu mô hình khoa học dữ liệu để xây dựng và triển khai mô hình. Mô-đun này có các chức năng dành cho sổ đăng ký mô hình tập trung, thẻ mô hình, bảng điều khiển mô hình và quy trình CI/CD được sử dụng để điều phối và tự động hóa quy trình phát triển và triển khai mô hình.

Ngoài ra, mô-đun này nêu chi tiết cách triển khai các biện pháp kiểm soát và quản trị cần thiết để kích hoạt khả năng tự phục vụ dựa trên cá nhân, cho phép các nhóm khoa học dữ liệu triển khai độc lập cơ sở hạ tầng đám mây và các mẫu ML cần thiết của họ.

Phát triển trường hợp sử dụng ML

Mô-đun này giúp LOB và nhà khoa học dữ liệu truy cập vào miền SageMaker của nhóm họ trong môi trường phát triển và khởi tạo mẫu xây dựng mô hình để phát triển mô hình của họ. Trong mô-đun này, các nhà khoa học dữ liệu làm việc trên phiên bản tài khoản nhà phát triển của mẫu để tương tác với dữ liệu có sẵn trên hồ dữ liệu tập trung, tái sử dụng và chia sẻ các tính năng từ kho tính năng trung tâm, tạo và chạy thử nghiệm ML, xây dựng và kiểm tra quy trình công việc ML của họ, và đăng ký mô hình của họ vào sổ đăng ký mô hình tài khoản nhà phát triển trong môi trường phát triển của họ.

Các khả năng như theo dõi thử nghiệm, báo cáo khả năng giải thích mô hình, giám sát sai lệch dữ liệu và mô hình cũng như đăng ký mô hình cũng được triển khai trong các mẫu, cho phép điều chỉnh nhanh chóng các giải pháp cho các mô hình đã phát triển của các nhà khoa học dữ liệu.

Hoạt động ML

Mô-đun này giúp LOB và kỹ sư ML làm việc trên các phiên bản phát triển của mẫu triển khai mô hình. Sau khi mô hình ứng cử viên được đăng ký và phê duyệt, họ thiết lập quy trình CI/CD và chạy quy trình công việc ML trong môi trường thử nghiệm của nhóm, đăng ký mô hình vào sổ đăng ký mô hình trung tâm chạy trong tài khoản dịch vụ chia sẻ nền tảng. Khi một mô hình được phê duyệt trong cơ quan đăng ký mô hình trung tâm, điều này sẽ kích hoạt quy trình CI/CD để triển khai mô hình đó vào môi trường sản xuất của nhóm.

Cửa hàng tính năng tập trung

Sau khi các mô hình đầu tiên được triển khai vào sản xuất và nhiều trường hợp sử dụng bắt đầu chia sẻ các tính năng được tạo từ cùng một dữ liệu, kho tính năng trở nên cần thiết để đảm bảo sự cộng tác giữa các trường hợp sử dụng và giảm công việc trùng lặp. Mô-đun này giúp nhóm kỹ thuật nền tảng ML thiết lập một kho tính năng tập trung để cung cấp khả năng lưu trữ và quản trị cho các tính năng ML được tạo bởi các trường hợp sử dụng ML, cho phép tái sử dụng tính năng trong các dự án.

Ghi nhật ký và khả năng quan sát

Mô-đun này giúp LOB và người thực hành ML hiểu được trạng thái của khối lượng công việc ML trên các môi trường ML thông qua việc tập trung hóa hoạt động nhật ký như CloudTrail, CloudWatch, nhật ký luồng VPC và nhật ký khối lượng công việc ML. Các nhóm có thể lọc, truy vấn và trực quan hóa nhật ký để phân tích, điều này cũng có thể giúp nâng cao tình trạng bảo mật.

Chi phí và báo cáo

Mô-đun này giúp các bên liên quan khác nhau (quản trị viên đám mây, quản trị viên nền tảng, văn phòng kinh doanh trên nền tảng đám mây) tạo báo cáo và bảng thông tin để phân tích chi phí ở cấp độ người dùng ML, nhóm ML và sản phẩm ML, đồng thời theo dõi việc sử dụng như số lượng người dùng, loại phiên bản và điểm cuối.

Khách hàng đã yêu cầu chúng tôi cung cấp hướng dẫn về số lượng tài khoản cần tạo và cách cấu trúc các tài khoản đó. Trong phần tiếp theo, chúng tôi cung cấp hướng dẫn về cấu trúc tài khoản đó để bạn tham khảo và có thể sửa đổi cho phù hợp với nhu cầu cũng như yêu cầu quản trị doanh nghiệp của mình.

Trong phần này, chúng tôi thảo luận về đề xuất của chúng tôi để tổ chức cấu trúc tài khoản của bạn. Chúng tôi chia sẻ cấu trúc tài khoản tham chiếu cơ bản; tuy nhiên, chúng tôi khuyên quản trị viên ML và dữ liệu nên hợp tác chặt chẽ với quản trị viên đám mây của họ để tùy chỉnh cấu trúc tài khoản này dựa trên các biện pháp kiểm soát tổ chức của họ.

Chúng tôi khuyên bạn nên tổ chức các tài khoản theo OU để bảo mật, cơ sở hạ tầng, khối lượng công việc và triển khai. Hơn nữa, trong mỗi OU, hãy tổ chức theo OU sản xuất và phi sản xuất vì các tài khoản và khối lượng công việc được triển khai trong chúng có các biện pháp kiểm soát khác nhau. Tiếp theo, chúng tôi thảo luận ngắn gọn về các OU đó.

Đơn vị tổ chức bảo mật

Các tài khoản trong OU này được quản trị viên đám mây hoặc nhóm bảo mật của tổ chức quản lý để theo dõi, xác định, bảo vệ, phát hiện và phản hồi các sự kiện bảo mật.

OU cơ sở hạ tầng

Các tài khoản trong OU này được quản lý bởi quản trị viên đám mây hoặc nhóm mạng của tổ chức để quản lý các tài nguyên và mạng chia sẻ cơ sở hạ tầng cấp doanh nghiệp.

Chúng tôi khuyên bạn nên có các tài khoản sau trong OU cơ sở hạ tầng:

mạng – Thiết lập cơ sở hạ tầng mạng tập trung như Cổng chuyển tuyến AWS
Chia sẻ dịch vụ – Thiết lập các dịch vụ AD tập trung và điểm cuối VPC

Khối lượng công việc OU

Các tài khoản trong OU này được quản lý bởi quản trị viên nhóm nền tảng của tổ chức. Nếu cần triển khai các biện pháp kiểm soát khác nhau cho từng nhóm nền tảng, bạn có thể lồng các cấp OU khác cho mục đích đó, chẳng hạn như OU khối lượng công việc ML, OU khối lượng công việc dữ liệu, v.v.

Chúng tôi đề xuất các tài khoản sau theo khối lượng công việc OU:

Các tài khoản nhà phát triển, thử nghiệm và sản phẩm ML cấp nhóm – Thiết lập điều này dựa trên yêu cầu cách ly khối lượng công việc của bạn
Tài khoản hồ dữ liệu – Phân vùng tài khoản theo miền dữ liệu của bạn
Tài khoản quản trị dữ liệu trung tâm – Tập trung các chính sách truy cập dữ liệu của bạn
Tài khoản cửa hàng tính năng trung tâm – Tập trung các tính năng để chia sẻ giữa các nhóm

Đơn vị tổ chức triển khai

Các tài khoản trong OU này được quản lý bởi quản trị viên nhóm nền tảng của tổ chức để triển khai khối lượng công việc và khả năng quan sát.

Chúng tôi khuyên dùng các tài khoản sau trong OU triển khai vì nhóm nền tảng ML có thể thiết lập các bộ kiểm soát khác nhau ở cấp OU này để quản lý và chi phối việc triển khai:

Tài khoản dịch vụ chia sẻ ML để thử nghiệm và sản xuất – Nền tảng máy chủ dịch vụ chia sẻ CI/CD và đăng ký mô hình
Tài khoản khả năng quan sát ML cho thử nghiệm và sản phẩm – Lưu trữ nhật ký CloudWatch, nhật ký CloudTrail và các nhật ký khác nếu cần

Tiếp theo, chúng tôi thảo luận ngắn gọn về các biện pháp kiểm soát tổ chức cần được xem xét để đưa vào tài khoản thành viên nhằm giám sát tài nguyên cơ sở hạ tầng.

Kiểm soát môi trường AWS

Kiểm soát là quy tắc cấp cao cung cấp khả năng quản trị liên tục cho môi trường AWS tổng thể của bạn. Nó được thể hiện bằng ngôn ngữ đơn giản. Trong khuôn khổ này, chúng tôi sử dụng Tháp điều khiển AWS để triển khai các biện pháp kiểm soát sau nhằm giúp bạn quản lý tài nguyên của mình và giám sát việc tuân thủ giữa các nhóm tài khoản AWS:

Kiểm soát phòng ngừa – Kiểm soát phòng ngừa đảm bảo rằng tài khoản của bạn duy trì sự tuân thủ vì nó không cho phép các hành động dẫn đến vi phạm chính sách và được triển khai bằng Chính sách kiểm soát dịch vụ (SCP). Ví dụ: bạn có thể đặt biện pháp kiểm soát phòng ngừa để đảm bảo rằng CloudTrail không bị xóa hoặc dừng trong các tài khoản hoặc Khu vực AWS.
Điều khiển thám tử – Kiểm soát thám tử phát hiện sự không tuân thủ các tài nguyên trong tài khoản của bạn, chẳng hạn như vi phạm chính sách, cung cấp cảnh báo thông qua trang tổng quan và được triển khai bằng cách sử dụng Cấu hình AWS quy tắc. Ví dụ: bạn có thể tạo điều khiển thám tử để phát hiện xem quyền truy cập đọc công khai có được bật đối với Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) trong tài khoản chia sẻ kho lưu trữ nhật ký.
Kiểm soát chủ động – Kiểm soát chủ động quét tài nguyên của bạn trước khi chúng được cung cấp và đảm bảo rằng tài nguyên tuân thủ kiểm soát đó và được triển khai bằng cách sử dụng Hình thành đám mây AWS móc. Những tài nguyên không tuân thủ sẽ không được cung cấp. Ví dụ: bạn có thể đặt kiểm soát chủ động để kiểm tra xem truy cập Internet trực tiếp không được phép đối với phiên bản sổ ghi chép SageMaker.

Tương tác giữa các dịch vụ nền tảng ML, trường hợp sử dụng ML và hoạt động ML

Các cá nhân khác nhau, chẳng hạn như người đứng đầu khoa học dữ liệu (nhà khoa học dữ liệu chính), nhà khoa học dữ liệu và kỹ sư ML, vận hành các mô-đun 2–6 như được hiển thị trong sơ đồ sau cho các giai đoạn khác nhau của dịch vụ nền tảng ML, phát triển trường hợp sử dụng ML và hoạt động ML cùng với nền tảng hồ dữ liệu và kho tính năng trung tâm.

Bảng sau đây tóm tắt hoạt động của quy trình vận hành và các bước quy trình thiết lập cho các cá tính khác nhau. Sau khi một cá nhân bắt đầu hoạt động ML như một phần của quy trình hoạt động, các dịch vụ sẽ chạy như được đề cập trong các bước quy trình thiết lập.

Persona	Hoạt động luồng hoạt động – Con số	Hoạt động luồng hoạt động – Mô tả	Bước thiết lập quy trình – Số	Bước quy trình thiết lập – Mô tả
Trưởng nhóm khoa học dữ liệu hoặc trưởng nhóm ML	1	Sử dụng Danh mục dịch vụ trong tài khoản dịch vụ nền tảng ML và triển khai như sau: Cơ sở hạ tầng ML Các dự án của SageMaker Đăng ký mô hình SageMaker	1-A	Thiết lập môi trường phát triển, thử nghiệm và sản xuất cho LOB Thiết lập SageMaker Studio trong tài khoản dịch vụ nền tảng ML
Trưởng nhóm khoa học dữ liệu hoặc trưởng nhóm ML	1		1-B	Thiết lập SageMaker Studio với cấu hình được yêu cầu
Nhà khoa học dữ liệu	2	Tiến hành và theo dõi các thử nghiệm ML trong sổ ghi chép SageMaker	2-A	Sử dụng dữ liệu từ Lake Formation Lưu các tính năng trong kho tính năng trung tâm
	3	Tự động hóa các thử nghiệm ML thành công với các dự án và quy trình SageMaker	3-A	Khởi tạo quy trình SageMaker (tiền xử lý, đào tạo, đánh giá) trong tài khoản nhà phát triển Bắt đầu quá trình xây dựng CI/CD bằng CodePipeline trong tài khoản nhà phát triển
	3		3-B	Sau khi quy trình SageMaker chạy, hãy lưu mô hình vào sổ đăng ký mô hình (dev) cục bộ
Trưởng nhóm khoa học dữ liệu hoặc Trưởng nhóm ML	4	Phê duyệt mô hình trong sổ đăng ký mô hình (dev) cục bộ	4-A	Siêu dữ liệu mô hình và gói mô hình ghi từ sổ đăng ký mô hình (dev) cục bộ vào sổ đăng ký mô hình trung tâm
	5	Phê duyệt mô hình trong sổ đăng ký mô hình trung tâm	5-A	Bắt đầu quy trình CI/CD triển khai để tạo điểm cuối SageMaker trong môi trường thử nghiệm
	5	Phê duyệt mô hình trong sổ đăng ký mô hình trung tâm	5-B	Ghi thông tin mô hình và siêu dữ liệu vào mô-đun quản trị ML (thẻ mô hình, bảng thông tin mô hình) trong tài khoản dịch vụ nền tảng ML từ tài khoản (nhà phát triển) cục bộ
Kỹ sư ML	6	Kiểm tra và giám sát điểm cuối SageMaker trong môi trường thử nghiệm sau CI/CD	.
	7	Phê duyệt việc triển khai các điểm cuối SageMaker trong môi trường sản phẩm	7-A	Bắt đầu quy trình CI/CD triển khai để tạo điểm cuối SageMaker trong môi trường sản phẩm
	8	Kiểm tra và giám sát điểm cuối SageMaker trong môi trường thử nghiệm sau CI/CD	.

Personas và tương tác với các mô-đun khác nhau của nền tảng ML

Mỗi mô-đun phục vụ cho các đối tượng mục tiêu cụ thể trong các bộ phận cụ thể sử dụng mô-đun đó thường xuyên nhất, cấp cho họ quyền truy cập chính. Sau đó, quyền truy cập thứ cấp sẽ được cấp cho các bộ phận khác yêu cầu sử dụng mô-đun không thường xuyên. Các mô-đun được điều chỉnh theo nhu cầu của các vai trò công việc hoặc tính cách cụ thể để tối ưu hóa chức năng.

Chúng tôi thảo luận về các đội sau:

Kỹ thuật đám mây trung tâm – Nhóm này hoạt động ở cấp độ đám mây doanh nghiệp trên tất cả các khối lượng công việc để thiết lập các dịch vụ cơ sở hạ tầng đám mây phổ biến, chẳng hạn như thiết lập mạng, danh tính, quyền và quản lý tài khoản cấp doanh nghiệp
Kỹ thuật nền tảng dữ liệu – Nhóm này quản lý hồ dữ liệu doanh nghiệp, thu thập dữ liệu, quản lý dữ liệu và quản trị dữ liệu
Kỹ thuật nền tảng ML – Nhóm này hoạt động ở cấp nền tảng ML trên các LOB để cung cấp các dịch vụ cơ sở hạ tầng ML dùng chung như cung cấp cơ sở hạ tầng ML, theo dõi thử nghiệm, quản trị mô hình, triển khai và khả năng quan sát

Bảng sau đây nêu chi tiết những bộ phận nào có quyền truy cập chính và phụ cho từng mô-đun theo cá tính mục tiêu của mô-đun.

Số mô-đun	Modules	Quyền truy cập chính	Quyền truy cập phụ	Đối tượng mục tiêu	Số lượng tài khoản
1	Nền tảng nhiều tài khoản	Kỹ thuật đám mây trung tâm	LOB riêng lẻ	Quản trị viên đám mây Kỹ sư đám mây	Rất ít
2	Nền tảng hồ dữ liệu	Kỹ thuật nền tảng dữ liệu hoặc đám mây trung tâm	LOB riêng lẻ	Quản trị viên hồ dữ liệu Kỹ sư dữ liệu	nhiều
3	Dịch vụ nền tảng ML	Kỹ thuật nền tảng đám mây hoặc ML trung tâm	LOB riêng lẻ	Quản trị viên nền tảng ML Trưởng nhóm ML kỹ sư ML Trưởng nhóm quản trị ML	Một
4	Phát triển trường hợp sử dụng ML	LOB riêng lẻ	Kỹ thuật nền tảng đám mây hoặc ML trung tâm	Nhà khoa học dữ liệu Kỹ sư dữ liệu Trưởng nhóm ML kỹ sư ML	nhiều
5	Hoạt động ML	Kỹ thuật đám mây trung tâm hoặc ML	LOB riêng lẻ	Kỹ sư ML Trưởng nhóm ML Nhà khoa học dữ liệu	nhiều
6	Cửa hàng tính năng tập trung	Kỹ thuật dữ liệu hoặc đám mây trung tâm	LOB riêng lẻ	Kỹ sư dữ liệu Nhà khoa học dữ liệu	Một
7	Ghi nhật ký và khả năng quan sát	Kỹ thuật đám mây trung tâm	LOB riêng lẻ	Quản trị viên đám mây Kiểm toán viên CNTT	Một
8	Chi phí và báo cáo	LOB riêng lẻ	Kỹ thuật nền tảng trung tâm	Giám đốc điều hành LOB người quản lý ML	Một

Kết luận

Trong bài đăng này, chúng tôi đã giới thiệu một khuôn khổ để quản lý vòng đời ML trên quy mô lớn nhằm giúp bạn triển khai khối lượng công việc ML có kiến trúc tốt, tích hợp các biện pháp kiểm soát quản trị và bảo mật. Chúng tôi đã thảo luận về cách khung này áp dụng cách tiếp cận toàn diện để xây dựng nền tảng ML có tính đến quản trị dữ liệu, quản trị mô hình và kiểm soát cấp doanh nghiệp. Chúng tôi khuyến khích bạn thử nghiệm khuôn khổ và khái niệm được giới thiệu trong bài đăng này và chia sẻ phản hồi của bạn.

Giới thiệu về tác giả

Ram Vittal là Kiến trúc sư giải pháp ML chính tại AWS. Ông có hơn 3 thập kỷ kinh nghiệm kiến trúc và xây dựng các ứng dụng phân tán, kết hợp và đám mây. Anh ấy đam mê xây dựng các giải pháp dữ liệu lớn và AI/ML an toàn, có thể mở rộng, đáng tin cậy để hỗ trợ khách hàng doanh nghiệp trong hành trình áp dụng và tối ưu hóa đám mây nhằm cải thiện kết quả kinh doanh của họ. Trong thời gian rảnh rỗi, anh ấy lái xe máy và đi dạo cùng chú cừu ba tuổi của mình!

Sovik Kumar Nath là một kiến trúc sư giải pháp AI/ML với AWS. Ông có nhiều kinh nghiệm thiết kế các giải pháp phân tích kinh doanh và học máy từ đầu đến cuối về tài chính, vận hành, tiếp thị, chăm sóc sức khỏe, quản lý chuỗi cung ứng và IoT. Sovik đã xuất bản các bài báo và có bằng sáng chế về giám sát mô hình ML. Ông có hai bằng thạc sĩ của Đại học Nam Florida, Đại học Fribourg, Thụy Sĩ và bằng cử nhân của Học viện Công nghệ Ấn Độ, Kharagpur. Ngoài công việc, Sovik thích đi du lịch, đi phà và xem phim.

Maira Ladeira Tanke là Chuyên gia dữ liệu cấp cao tại AWS. Với tư cách là trưởng nhóm kỹ thuật, cô giúp khách hàng đẩy nhanh việc đạt được giá trị kinh doanh thông qua công nghệ mới nổi và các giải pháp đổi mới. Maira đã làm việc tại AWS từ tháng 2020 năm XNUMX. Trước đó, cô làm nhà khoa học dữ liệu trong nhiều ngành tập trung vào việc đạt được giá trị kinh doanh từ dữ liệu. Khi rảnh rỗi, Maira thích đi du lịch và dành thời gian cùng gia đình ở một nơi nào đó ấm áp.

Ryan Lempka là Kiến trúc sư giải pháp cấp cao tại Amazon Web Services, nơi ông giúp khách hàng của mình làm việc ngược lại từ các mục tiêu kinh doanh để phát triển các giải pháp trên AWS. Ông có kinh nghiệm sâu sắc về chiến lược kinh doanh, quản lý hệ thống CNTT và khoa học dữ liệu. Ryan luôn nỗ lực trở thành một người học hỏi suốt đời và thích thử thách bản thân mỗi ngày để học hỏi điều gì đó mới mẻ.

Sriharsh Adari là Kiến trúc sư giải pháp cao cấp tại Amazon Web Services (AWS), nơi anh ấy giúp khách hàng làm việc ngược lại từ kết quả kinh doanh để phát triển các giải pháp sáng tạo trên AWS. Trong những năm qua, anh ấy đã giúp nhiều khách hàng trong việc chuyển đổi nền tảng dữ liệu trên các ngành dọc của ngành. Lĩnh vực chuyên môn cốt lõi của ông bao gồm Chiến lược công nghệ, Phân tích dữ liệu và Khoa học dữ liệu. Trong thời gian rảnh rỗi, anh ấy thích chơi thể thao, say sưa xem các chương trình TV và chơi Tabla.

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
nguồn: https://aws.amazon.com/blogs/machine-learning/governing-the-ml-lifecycle-at-scale-part-1-a-framework-for-architecting-ml-workloads-using-amazon-sagemaker/

Trí thông minh dữ liệu tạo

Quản lý vòng đời ML trên quy mô lớn, Phần 1: Khung kiến trúc khối lượng công việc ML bằng Amazon SageMaker | Dịch vụ web của Amazon

Tổng quan về giải pháp