Logo Zephyrnet

Tăng tốc quá trình chuẩn bị dữ liệu cho ML trong Amazon SageMaker Canvas | Dịch vụ web của Amazon

Ngày:

Chuẩn bị dữ liệu là một bước quan trọng trong bất kỳ quy trình học máy (ML) nào, tuy nhiên nó thường liên quan đến các công việc tẻ nhạt và tốn thời gian. Canvas SageMaker của Amazon hiện hỗ trợ khả năng chuẩn bị dữ liệu toàn diện được cung cấp bởi Trình sắp xếp dữ liệu Amazon SageMaker. Với sự tích hợp này, SageMaker Canvas cung cấp cho khách hàng không gian làm việc không cần mã từ đầu đến cuối để chuẩn bị dữ liệu, xây dựng và sử dụng các mô hình ML cũng như nền tảng nhằm tăng tốc thời gian từ dữ liệu đến hiểu biết sâu sắc về doanh nghiệp. Giờ đây, bạn có thể dễ dàng khám phá và tổng hợp dữ liệu từ hơn 50 nguồn dữ liệu, đồng thời khám phá và chuẩn bị dữ liệu bằng cách sử dụng hơn 300 phân tích và chuyển đổi tích hợp trong giao diện trực quan của SageMaker Canvas. Bạn cũng sẽ thấy hiệu suất chuyển đổi và phân tích nhanh hơn cũng như giao diện ngôn ngữ tự nhiên để khám phá và chuyển đổi dữ liệu cho ML.

Trong bài đăng này, chúng tôi sẽ hướng dẫn bạn quy trình chuẩn bị dữ liệu cho việc xây dựng mô hình toàn diện trong SageMaker Canvas.

Tổng quan về giải pháp

Đối với trường hợp sử dụng của chúng tôi, chúng tôi đang đảm nhận vai trò chuyên gia dữ liệu tại một công ty dịch vụ tài chính. Chúng tôi sử dụng hai tập dữ liệu mẫu để xây dựng mô hình ML nhằm dự đoán liệu người đi vay có hoàn trả đầy đủ khoản vay hay không, điều này rất quan trọng để quản lý rủi ro tín dụng. Môi trường không có mã của SageMaker Canvas cho phép chúng tôi nhanh chóng chuẩn bị dữ liệu, thiết kế các tính năng, huấn luyện mô hình ML và triển khai mô hình theo quy trình làm việc toàn diện mà không cần mã hóa.

Điều kiện tiên quyết

Để làm theo hướng dẫn này, hãy đảm bảo bạn đã triển khai các điều kiện tiên quyết như được nêu chi tiết trong

  1. Khởi chạy Amazon SageMaker Canvas. Nếu bạn đã là người dùng SageMaker Canvas, hãy đảm bảo bạn đăng xuất và đăng nhập lại để có thể sử dụng tính năng mới này.
  2. Để nhập dữ liệu từ Snowflake, hãy làm theo các bước từ Thiết lập OAuth cho Snowflake.

Chuẩn bị dữ liệu tương tác

Khi quá trình thiết lập hoàn tất, giờ đây chúng ta có thể tạo luồng dữ liệu để cho phép chuẩn bị dữ liệu tương tác. Luồng dữ liệu cung cấp các phép biến đổi tích hợp và trực quan hóa thời gian thực để sắp xếp dữ liệu. Hoàn thành các bước sau:

  1. Tạo luồng dữ liệu mới bằng một trong các phương pháp sau:
    1. Chọn Trình sắp xếp dữ liệu, Luồng dữ liệu, sau đó chọn Tạo.
    2. Chọn tập dữ liệu SageMaker Canvas và chọn Tạo luồng dữ liệu.
  2. Chọn Nhập dữ liệu và chọn Bảng từ danh sách thả xuống.
  3. Bạn có thể nhập dữ liệu trực tiếp thông qua hơn 50 trình kết nối dữ liệu như Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), amazon Athena, Amazon RedShift, Bông tuyết và Salesforce. Trong hướng dẫn này, chúng tôi sẽ đề cập đến việc nhập dữ liệu của bạn trực tiếp từ Snowflake.

Ngoài ra, bạn có thể tải lên cùng một tập dữ liệu từ máy cục bộ của mình. Bạn có thể tải xuống tập dữ liệu khoản vay-phần-1.csvkhoản vay-phần-2.csv.

  1. Từ trang Nhập dữ liệu, chọn Bông tuyết từ danh sách và chọn Thêm kết nối.

  2. Nhập tên cho kết nối, chọn OAuth tùy chọn từ danh sách thả xuống phương thức xác thực. Nhập id tài khoản okta của bạn và chọn Thêm kết nối.
  3. Bạn sẽ được chuyển hướng đến màn hình đăng nhập Okta để nhập thông tin đăng nhập Okta để xác thực. Khi xác thực thành công, bạn sẽ được chuyển hướng đến trang luồng dữ liệu.
  4. Duyệt để định vị tập dữ liệu cho vay từ cơ sở dữ liệu Snowflake

Chọn hai bộ dữ liệu khoản vay bằng cách kéo và thả chúng từ bên trái màn hình sang bên phải. Hai tập dữ liệu sẽ kết nối và biểu tượng nối có dấu chấm than màu đỏ sẽ xuất hiện. Bấm vào nó, sau đó chọn cho cả hai tập dữ liệu id chìa khóa. Để lại loại tham gia như Bên trong. Nó sẽ giống như thế này:

  1. Chọn Lưu và đóng.
  2. Chọn Tạo tập dữ liệu. Đặt tên cho tập dữ liệu.
  3. Điều hướng đến luồng dữ liệu, bạn sẽ thấy như sau.
  4. Để nhanh chóng khám phá dữ liệu khoản vay, hãy chọn Nhận thông tin chi tiết về dữ liệu Và chọn loan_status cột mục tiêu và phân loại loại vấn đề.

Tạo ra Báo cáo về chất lượng và thông tin chi tiết về dữ liệu cung cấp số liệu thống kê quan trọng, trực quan hóa và phân tích tầm quan trọng của tính năng.

  1. Xem lại các cảnh báo về vấn đề chất lượng dữ liệu và các lớp mất cân bằng để hiểu và cải thiện tập dữ liệu.

Đối với tập dữ liệu trong trường hợp sử dụng này, bạn sẽ thấy cảnh báo có mức độ ưu tiên cao là “Điểm mô hình nhanh rất thấp” và hiệu quả mô hình rất thấp đối với các nhóm thiểu số (đã tắt và hiện tại), cho biết cần phải làm sạch và cân bằng dữ liệu. tham khảo Tài liệu canvas để tìm hiểu thêm về báo cáo thông tin chuyên sâu về dữ liệu.


Với hơn 300 phép biến đổi tích hợp được hỗ trợ bởi SageMaker Data Wrangler, SageMaker Canvas cho phép bạn sắp xếp nhanh chóng dữ liệu khoản vay. Bạn có thể bấm vào Thêm bướcvà duyệt hoặc tìm kiếm các phép biến đổi phù hợp. Đối với tập dữ liệu này, sử dụng Bỏ sót và Xử lý các ngoại lệ để làm sạch dữ liệu, sau đó áp dụng Mã hóa một lần nóng,  Vector hóa văn bản để tạo các tính năng cho ML.

Trò chuyện để chuẩn bị dữ liệu là một khả năng ngôn ngữ tự nhiên mới cho phép phân tích dữ liệu trực quan bằng cách mô tả các yêu cầu bằng tiếng Anh đơn giản. Ví dụ: bạn có thể lấy số liệu thống kê và phân tích tương quan tính năng trên dữ liệu khoản vay bằng các cụm từ tự nhiên. SageMaker Canvas hiểu và thực hiện các hành động thông qua tương tác đàm thoại, đưa việc chuẩn bị dữ liệu lên một tầm cao mới.


Chúng ta có thể sử dụng Trò chuyện để chuẩn bị dữ liệu và biến đổi tích hợp để cân bằng dữ liệu cho vay.

  1. Đầu tiên, nhập các hướng dẫn sau: replace “charged off” and “current” in loan_status with “default”

Trò chuyện để chuẩn bị dữ liệu tạo mã để hợp nhất hai lớp thiểu số thành một default lớp học.

  1. Chọn tích hợp sẵn NHỎ hàm biến đổi để tạo dữ liệu tổng hợp cho lớp mặc định.

Bây giờ bạn có một cột mục tiêu cân bằng.

  1. Sau khi làm sạch và xử lý dữ liệu khoản vay, hãy tạo lại Báo cáo về chất lượng và thông tin chi tiết về dữ liệu để xem xét các cải tiến.

Cảnh báo mức độ ưu tiên cao đã biến mất, cho thấy chất lượng dữ liệu được cải thiện. Bạn có thể thêm các phép biến đổi khác nếu cần để nâng cao chất lượng dữ liệu cho việc đào tạo mô hình.

Mở rộng quy mô và tự động hóa xử lý dữ liệu

Để tự động hóa việc chuẩn bị dữ liệu, bạn có thể chạy hoặc lên lịch cho toàn bộ quy trình làm việc dưới dạng công việc xử lý Spark phân tán để xử lý toàn bộ tập dữ liệu hoặc bất kỳ tập dữ liệu mới nào trên quy mô lớn.

  1. Trong luồng dữ liệu, hãy thêm nút đích Amazon S3.
  2. Khởi chạy công việc Xử lý SageMaker bằng cách chọn Tạo việc làm.
  3. Cấu hình công việc xử lý và chọn Tạo, cho phép luồng chạy trên hàng trăm GB dữ liệu mà không cần lấy mẫu.

Các luồng dữ liệu có thể được tích hợp vào các đường dẫn MLOps từ đầu đến cuối để tự động hóa vòng đời ML. Luồng dữ liệu có thể được đưa vào sổ ghi chép SageMaker Studio dưới dạng bước xử lý dữ liệu trong quy trình SageMaker hoặc để triển khai quy trình suy luận SageMaker. Điều này cho phép tự động hóa quy trình từ chuẩn bị dữ liệu đến đào tạo và lưu trữ SageMaker.

Xây dựng và triển khai mô hình trong SageMaker Canvas

Sau khi chuẩn bị dữ liệu, chúng tôi có thể xuất liền mạch tập dữ liệu cuối cùng sang SageMaker Canvas để xây dựng, đào tạo và triển khai mô hình dự đoán thanh toán khoản vay.

  1. Chọn Tạo mô hình trong nút cuối cùng của luồng dữ liệu hoặc trong ngăn nút.

Thao tác này sẽ xuất tập dữ liệu và khởi chạy quy trình tạo mô hình có hướng dẫn.

  1. Đặt tên cho tập dữ liệu đã xuất và chọn Xuất khẩu.
  2. Chọn Tạo mô hình từ thông báo.
  3. Đặt tên cho mô hình, chọn Phân tích tiên đoán, và lựa chọn Tạo.

Điều này sẽ chuyển hướng bạn đến trang xây dựng mô hình.

  1. Tiếp tục trải nghiệm xây dựng mô hình SageMaker Canvas bằng cách chọn cột mục tiêu và loại mô hình, sau đó chọn Xây dựng nhanh chóng or Xây dựng tiêu chuẩn.

Để tìm hiểu thêm về trải nghiệm xây dựng mô hình, hãy tham khảo Xây dựng một mô hình.

Khi quá trình đào tạo hoàn tất, bạn có thể sử dụng mô hình để dự đoán dữ liệu mới hoặc triển khai dữ liệu đó. tham khảo Triển khai các mô hình ML được xây dựng trong Amazon SageMaker Canvas cho các điểm cuối thời gian thực của Amazon SageMaker để tìm hiểu thêm về cách triển khai mô hình từ SageMaker Canvas.

Kết luận

Trong bài đăng này, chúng tôi đã chứng minh khả năng toàn diện của SageMaker Canvas bằng cách đảm nhận vai trò chuyên gia dữ liệu tài chính chuẩn bị dữ liệu để dự đoán khoản thanh toán khoản vay, được cung cấp bởi SageMaker Data Wrangler. Việc chuẩn bị dữ liệu tương tác cho phép nhanh chóng làm sạch, chuyển đổi và phân tích dữ liệu khoản vay để thiết kế các tính năng thông tin. Bằng cách loại bỏ sự phức tạp về mã hóa, SageMaker Canvas cho phép chúng tôi lặp lại nhanh chóng để tạo ra tập dữ liệu đào tạo chất lượng cao. Quy trình làm việc được tăng tốc này dẫn trực tiếp đến việc xây dựng, đào tạo và triển khai mô hình ML hiệu quả để tạo ra tác động kinh doanh. Với việc chuẩn bị dữ liệu toàn diện và trải nghiệm thống nhất từ ​​dữ liệu đến thông tin chi tiết, SageMaker Canvas hỗ trợ bạn cải thiện kết quả ML của mình. Để biết thêm thông tin về cách tăng tốc hành trình của bạn từ dữ liệu đến hiểu biết sâu sắc về doanh nghiệp, hãy xem Ngày trải nghiệm SageMaker CanvasHướng dẫn sử dụng AWS.


Giới thiệu về tác giả

Tiến sĩ Trường Sa Mã là Chuyên gia AI/ML tại AWS. Cô là một nhà công nghệ có bằng Tiến sĩ Khoa học Máy tính, bằng thạc sĩ Tâm lý Giáo dục và có nhiều năm kinh nghiệm trong lĩnh vực khoa học dữ liệu cũng như tư vấn độc lập về AI/ML. Cô đam mê nghiên cứu các phương pháp tiếp cận phương pháp luận cho trí tuệ máy móc và con người. Ngoài công việc, cô thích đi bộ đường dài, nấu ăn, săn tìm đồ ăn và dành thời gian cho bạn bè và gia đình.

Ajjay Govindaram là Kiến trúc sư giải pháp cấp cao tại AWS. Anh ấy làm việc với các khách hàng chiến lược đang sử dụng AI/ML để giải quyết các vấn đề kinh doanh phức tạp. Kinh nghiệm của anh ấy là cung cấp định hướng kỹ thuật cũng như hỗ trợ thiết kế cho các triển khai ứng dụng AI/ML quy mô nhỏ đến quy mô lớn. Kiến thức của anh bao gồm từ kiến ​​trúc ứng dụng đến dữ liệu lớn, phân tích và máy học. Anh ấy thích nghe nhạc khi nghỉ ngơi, trải nghiệm ngoài trời và dành thời gian cho những người thân yêu của mình.

Hương Nguyễn là Giám đốc sản phẩm cấp cao tại AWS. Cô đang lãnh đạo việc chuẩn bị dữ liệu ML cho SageMaker Canvas và SageMaker Data Wrangler, với 15 năm kinh nghiệm xây dựng các sản phẩm lấy khách hàng làm trung tâm và dựa trên dữ liệu.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img