Logo Zephyrnet

Sử dụng machine learning mà không cần viết một dòng mã nào với Amazon SageMaker Canvas | Dịch vụ web của Amazon

Ngày:

Trước đây, việc sử dụng máy học (ML) để đưa ra dự đoán, đặc biệt đối với dữ liệu ở dạng văn bản và hình ảnh, đòi hỏi kiến ​​thức ML sâu rộng để tạo và điều chỉnh các mô hình học sâu. Ngày nay, ML đã trở nên dễ tiếp cận hơn đối với bất kỳ người dùng nào muốn sử dụng mô hình ML để tạo ra giá trị kinh doanh. Với Canvas SageMaker của Amazon, bạn có thể tạo dự đoán cho một số loại dữ liệu khác nhau ngoài dữ liệu dạng bảng hoặc chuỗi thời gian mà không cần viết một dòng mã nào. Những khả năng này bao gồm các mô hình được đào tạo trước cho các kiểu dữ liệu hình ảnh, văn bản và tài liệu.

Trong bài đăng này, chúng tôi thảo luận về cách bạn có thể sử dụng các mô hình được đào tạo trước để truy xuất dự đoán cho các loại dữ liệu được hỗ trợ ngoài dữ liệu dạng bảng.

dữ liệu văn bản

SageMaker Canvas cung cấp môi trường trực quan, không cần mã để xây dựng, đào tạo và triển khai các mô hình ML. Đối với các tác vụ xử lý ngôn ngữ tự nhiên (NLP), SageMaker Canvas tích hợp hoàn hảo với Amazon hiểu để cho phép bạn thực hiện các khả năng NLP chính như phát hiện ngôn ngữ, nhận dạng thực thể, phân tích tình cảm, lập mô hình chủ đề, v.v. Việc tích hợp giúp loại bỏ nhu cầu sử dụng bất kỳ kỹ thuật mã hóa hoặc dữ liệu nào để sử dụng các mô hình NLP mạnh mẽ của Amazon Comprehend. Bạn chỉ cần cung cấp dữ liệu văn bản của mình và chọn từ bốn khả năng thường được sử dụng: phân tích cảm xúc, phát hiện ngôn ngữ, trích xuất thực thể và phát hiện thông tin cá nhân. Đối với mỗi kịch bản, bạn có thể sử dụng giao diện người dùng để kiểm tra và sử dụng tính năng dự đoán hàng loạt để chọn dữ liệu được lưu trữ trong Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3).

Phân tích dữ liệu văn bản trên SageMaker Canvas

Phân tích tình cảm

Với phân tích cảm tính, SageMaker Canvas cho phép bạn phân tích cảm xúc của văn bản đầu vào. Nó có thể xác định xem tâm lý chung là tích cực, tiêu cực, hỗn hợp hay trung tính, như minh họa trong ảnh chụp màn hình sau. Điều này rất hữu ích trong các tình huống như phân tích đánh giá sản phẩm. Ví dụ: văn bản “Tôi yêu sản phẩm này, nó thật tuyệt vời!” sẽ được SageMaker Canvas phân loại là có cảm xúc tích cực, trong khi “Sản phẩm này thật tệ, tôi rất tiếc đã mua nó” sẽ được gắn nhãn là cảm xúc tiêu cực.

Phân tích tình cảm trên SageMaker Canvas

Trích xuất thực thể

SageMaker Canvas có thể phân tích văn bản và tự động phát hiện các thực thể được đề cập trong đó. Khi một tài liệu được gửi đến SageMaker Canvas để phân tích, nó sẽ xác định người, tổ chức, địa điểm, ngày tháng, số lượng và các thực thể khác trong văn bản. Khả năng trích xuất thực thể này cho phép bạn nhanh chóng hiểu rõ hơn về những người, địa điểm và chi tiết quan trọng được thảo luận trong tài liệu. Để biết danh sách các thực thể được hỗ trợ, hãy tham khảo Các thực thể.

Khai thác thực thể trên SageMaker Canvas

Phát hiện ngôn ngữ

SageMaker Canvas cũng có thể xác định ngôn ngữ chính của văn bản bằng Amazon Comprehend. Nó phân tích văn bản để xác định ngôn ngữ chính và cung cấp điểm tin cậy cho ngôn ngữ chính được phát hiện, nhưng không chỉ ra tỷ lệ phần trăm cho các tài liệu đa ngôn ngữ. Để có kết quả tốt nhất với tài liệu dài bằng nhiều ngôn ngữ, hãy chia văn bản thành các phần nhỏ hơn và tổng hợp kết quả để ước tính tỷ lệ phần trăm ngôn ngữ. Nó hoạt động tốt nhất với ít nhất 20 ký tự văn bản.

Phát hiện ngôn ngữ trên SageMaker Canvas

Phát hiện thông tin cá nhân

Bạn cũng có thể bảo vệ dữ liệu nhạy cảm bằng cách phát hiện thông tin cá nhân với SageMaker Canvas. Nó có thể phân tích tài liệu văn bản để tự động phát hiện các thực thể thông tin nhận dạng cá nhân (PII), cho phép bạn xác định dữ liệu nhạy cảm như tên, địa chỉ, ngày sinh, số điện thoại, địa chỉ email, v.v. Nó phân tích các tài liệu có kích thước lên tới 100 KB và cung cấp điểm tin cậy cho từng thực thể được phát hiện để bạn có thể xem xét và loại bỏ có chọn lọc những thông tin nhạy cảm nhất. Để biết danh sách các thực thể được phát hiện, hãy tham khảo Phát hiện thực thể PII.

Phát hiện PII trên SageMaker Canvas

Dữ liệu hình ảnh

SageMaker Canvas cung cấp giao diện trực quan, không có mã giúp bạn dễ dàng sử dụng các khả năng thị giác máy tính bằng cách tích hợp với Nhận thức lại Amazon để phân tích hình ảnh. Ví dụ: bạn có thể tải lên tập dữ liệu hình ảnh, sử dụng Amazon Rekognition để phát hiện các đối tượng và cảnh cũng như thực hiện phát hiện văn bản để giải quyết nhiều trường hợp sử dụng. Giao diện trực quan và tích hợp Amazon Rekognition giúp những người không phải là nhà phát triển có thể khai thác các kỹ thuật thị giác máy tính tiên tiến.

Phân tích dữ liệu hình ảnh trên SageMaker Canvas

Phát hiện đối tượng trong hình ảnh

SageMaker Canvas sử dụng Amazon Rekognition để phát hiện nhãn (đối tượng) trong hình ảnh. Bạn có thể tải hình ảnh lên từ Giao diện người dùng SageMaker Canvas hoặc sử dụng Dự đoán hàng loạt để chọn hình ảnh được lưu trữ trong bộ chứa S3. Như trong ví dụ sau, nó có thể trích xuất các đối tượng trong ảnh như tháp đồng hồ, xe buýt, các tòa nhà, v.v. Bạn có thể sử dụng giao diện để tìm kiếm thông qua các kết quả dự đoán và sắp xếp chúng.

Phát hiện đối tượng trong hình ảnh trên SageMaker Canvas

Phát hiện văn bản trong hình ảnh

Trích xuất văn bản từ hình ảnh là một trường hợp sử dụng rất phổ biến. Giờ đây, bạn có thể thực hiện tác vụ này một cách dễ dàng trên SageMaker Canvas mà không cần mã. Văn bản được trích xuất dưới dạng chi tiết đơn hàng, như minh họa trong ảnh chụp màn hình sau. Các cụm từ ngắn trong hình ảnh được phân loại cùng nhau và được xác định là một cụm từ.

Phát hiện văn bản trong hình ảnh trên SageMaker Canvas

Bạn có thể thực hiện dự đoán hàng loạt bằng cách tải lên một bộ hình ảnh, trích xuất tất cả hình ảnh trong một tác vụ hàng loạt và tải kết quả xuống dưới dạng tệp CSV. Giải pháp này rất hữu ích khi bạn muốn trích xuất và phát hiện văn bản trong hình ảnh.

Dữ liệu tài liệu

SageMaker Canvas cung cấp nhiều giải pháp sẵn sàng sử dụng để giải quyết nhu cầu hiểu tài liệu hàng ngày của bạn. Những giải pháp này được cung cấp bởi Văn bản Amazon. Để xem tất cả các tùy chọn có sẵn cho tài liệu, hãy chọn Các mẫu sẵn sàng sử dụng trong ngăn điều hướng và lọc theo Tài liệu, như thể hiện trong ảnh chụp màn hình sau đây.

Phân tích dữ liệu tài liệu trên SageMaker Canvas

Phân tích tài liệu

Phân tích tài liệu phân tích các tài liệu và biểu mẫu về mối quan hệ giữa các văn bản được phát hiện. Các hoạt động trả về bốn loại trích xuất tài liệu: văn bản thô, biểu mẫu, bảng và chữ ký. Khả năng hiểu cấu trúc tài liệu của giải pháp giúp bạn linh hoạt hơn về loại dữ liệu bạn muốn trích xuất từ ​​tài liệu. Ảnh chụp màn hình sau đây là ví dụ về cách phát hiện bảng.

Phân tích tài liệu trên SageMaker Canvas

Giải pháp này có thể hiểu bố cục của các tài liệu phức tạp, rất hữu ích khi bạn cần trích xuất thông tin cụ thể trong tài liệu của mình.

Phân tích tài liệu nhận dạng

Giải pháp này được thiết kế để phân tích các tài liệu như thẻ nhận dạng cá nhân, giấy phép lái xe hoặc các hình thức nhận dạng tương tự khác. Thông tin như tên đệm, quận và nơi sinh, cùng với điểm tin cậy cá nhân về độ chính xác, sẽ được trả về cho từng giấy tờ nhận dạng, như minh họa trong ảnh chụp màn hình sau.

Phân tích tài liệu nhận dạng trên SageMaker Canvas

Có một tùy chọn để thực hiện dự đoán hàng loạt, nhờ đó bạn có thể tải lên hàng loạt bộ tài liệu nhận dạng và xử lý chúng như một công việc hàng loạt. Điều này cung cấp một cách nhanh chóng và liền mạch để chuyển đổi chi tiết tài liệu nhận dạng thành các cặp khóa-giá trị có thể được sử dụng cho các quy trình tiếp theo như phân tích dữ liệu.

Phân tích chi phí

Phân tích chi phí được thiết kế để phân tích các tài liệu chi phí như hóa đơn và biên lai. Ảnh chụp màn hình sau đây là ví dụ về thông tin được trích xuất trông như thế nào.

Phân tích chi phí trên SageMaker Canvas

Kết quả được trả về dưới dạng trường tóm tắt và trường mục hàng. Các trường tóm tắt là các cặp khóa-giá trị được trích xuất từ ​​tài liệu và chứa các khóa như Tổng cộng, Ngày đáo hạnThuế. Các trường mục hàng đề cập đến dữ liệu được cấu trúc dưới dạng bảng trong tài liệu. Điều này rất hữu ích để trích xuất thông tin từ tài liệu trong khi vẫn giữ lại bố cục của nó.

Truy vấn tài liệu

Truy vấn tài liệu được thiết kế để bạn đặt câu hỏi về tài liệu của mình. Đây là một giải pháp tuyệt vời để sử dụng khi bạn có tài liệu nhiều trang và bạn muốn trích xuất các câu trả lời rất cụ thể từ tài liệu của mình. Sau đây là ví dụ về các loại câu hỏi bạn có thể hỏi và câu trả lời được trích xuất trông như thế nào.

Truy vấn tài liệu trên SageMaker Canvas

Giải pháp cung cấp một giao diện đơn giản để bạn tương tác với tài liệu của mình. Điều này hữu ích khi bạn muốn nhận thông tin chi tiết cụ thể trong các tài liệu lớn.

Kết luận

SageMaker Canvas cung cấp môi trường không cần mã để sử dụng ML một cách dễ dàng trên nhiều loại dữ liệu khác nhau như văn bản, hình ảnh và tài liệu. Giao diện trực quan và tích hợp với các dịch vụ AWS như Amazon Comprehend, Amazon Rekognition và Amazon Textract giúp loại bỏ nhu cầu mã hóa và kỹ thuật dữ liệu. Bạn có thể phân tích văn bản để tìm cảm tính, thực thể, ngôn ngữ và PII. Đối với hình ảnh, tính năng phát hiện đối tượng và văn bản cho phép sử dụng thị giác máy tính. Cuối cùng, phân tích tài liệu có thể trích xuất văn bản trong khi vẫn giữ nguyên bố cục của nó cho các quy trình tiếp theo. Các giải pháp sẵn sàng sử dụng trong SageMaker Canvas giúp bạn có thể khai thác các kỹ thuật ML nâng cao để tạo ra thông tin chuyên sâu từ cả dữ liệu có cấu trúc và không cấu trúc. Nếu bạn quan tâm đến việc sử dụng các công cụ không cần mã với các mô hình ML sẵn sàng sử dụng, hãy dùng thử SageMaker Canvas ngay hôm nay. Để biết thêm thông tin, hãy tham khảo Bắt đầu sử dụng Amazon SageMaker Canvas.


Giới thiệu về tác giả

Julia Ang là Kiến trúc sư Giải pháp có trụ sở tại Singapore. Cô đã làm việc với khách hàng trong nhiều lĩnh vực, từ y tế và khu vực công đến các doanh nghiệp bản địa kỹ thuật số, để áp dụng các giải pháp theo nhu cầu kinh doanh của họ. Cô cũng đã và đang hỗ trợ khách hàng ở Đông Nam Á và xa hơn nữa sử dụng AI & ML trong hoạt động kinh doanh của họ. Ngoài công việc, cô thích tìm hiểu về thế giới thông qua việc đi du lịch và tham gia vào các hoạt động theo đuổi sáng tạo.

Loke Jun Kai là Kiến trúc sư giải pháp chuyên môn về AI/ML có trụ sở tại Singapore. Anh làm việc với khách hàng trên khắp ASEAN để xây dựng các giải pháp machine learning trên quy mô lớn trong AWS. Jun Kai là người ủng hộ các công cụ học máy Low-Code No-Code. Trong thời gian rảnh rỗi, anh thích hòa mình với thiên nhiên.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img