Logo Zephyrnet

Amazon Comprehend thông báo giới hạn chú thích thấp hơn để nhận dạng thực thể tùy chỉnh

Ngày:

Amazon hiểu là một dịch vụ xử lý ngôn ngữ tự nhiên (NLP) mà bạn có thể sử dụng để tự động trích xuất các thực thể, cụm từ khóa, ngôn ngữ, tình cảm và các thông tin chi tiết khác từ tài liệu. Ví dụ: bạn có thể bắt đầu phát hiện ngay các thực thể như người, địa điểm, thương phẩm, ngày tháng và số lượng thông qua Bảng điều khiển toàn diện của Amazon, Giao diện dòng lệnh AWS, hoặc là API toàn diện của Amazon. Ngoài ra, nếu bạn cần trích xuất các thực thể không phải là một phần của Amazon Toàn diện các loại thực thể được tích hợp sẵn, bạn có thể tạo mô hình nhận dạng thực thể tùy chỉnh (còn được gọi là thực thể tùy chỉnh nhận dạng) để trích xuất các thuật ngữ phù hợp hơn với trường hợp sử dụng cụ thể của bạn, chẳng hạn như tên của các mặt hàng từ danh mục sản phẩm, số nhận dạng theo miền cụ thể, v.v. Tự tạo một trình nhận dạng thực thể chính xác bằng cách sử dụng các thư viện và khuôn khổ học máy có thể là một quá trình phức tạp và tốn thời gian. Amazon Comprehend đơn giản hóa đáng kể công việc đào tạo mô hình của bạn. Tất cả những gì bạn cần làm là tải tập dữ liệu tài liệu và chú thích của mình, đồng thời sử dụng bảng điều khiển Toàn diện Amazon, AWS CLI hoặc API để tạo mô hình.

Để đào tạo một trình nhận dạng thực thể tùy chỉnh, bạn có thể cung cấp dữ liệu đào tạo cho Amazon Comprehend như chú thích hoặc danh sách thực thể. Trong trường hợp đầu tiên, bạn cung cấp một bộ sưu tập tài liệu và một tệp có chú thích chỉ định vị trí nơi các thực thể xuất hiện trong bộ tài liệu. Ngoài ra, với danh sách thực thể, bạn cung cấp danh sách các thực thể có nhãn loại thực thể tương ứng và một tập hợp các tài liệu không có chú thích mà bạn mong đợi các thực thể của mình có mặt. Cả hai cách tiếp cận đều có thể được sử dụng để đào tạo một mô hình nhận dạng thực thể tùy chỉnh thành công; tuy nhiên, có những tình huống trong đó một phương pháp có thể là lựa chọn tốt hơn. Ví dụ: khi ý nghĩa của các thực thể cụ thể có thể không rõ ràng và phụ thuộc vào ngữ cảnh, thì việc cung cấp chú thích được khuyến khích vì điều này có thể giúp bạn tạo ra một mô hình Toàn diện của Amazon có khả năng sử dụng ngữ cảnh tốt hơn khi trích xuất các thực thể.

Việc chú thích tài liệu có thể đòi hỏi khá nhiều nỗ lực và thời gian, đặc biệt nếu bạn cho rằng cả chất lượng và số lượng của chú thích đều có tác động đến mô hình nhận dạng thực thể kết quả. Chú thích không chính xác hoặc quá ít có thể dẫn đến kết quả kém. Để giúp bạn thiết lập quy trình lấy chú thích, chúng tôi cung cấp các công cụ như Sự thật về mặt đất của Amazon SageMaker, mà bạn có thể sử dụng để chú thích tài liệu của mình nhanh hơn và tạo tệp chú thích tệp kê khai tăng cường. Tuy nhiên, ngay cả khi bạn sử dụng Ground Truth, bạn vẫn cần đảm bảo rằng tập dữ liệu đào tạo của bạn đủ lớn để xây dựng thành công trình nhận dạng thực thể của bạn.

Cho đến hôm nay, để bắt đầu đào tạo một trình nhận dạng thực thể tùy chỉnh của Amazon Toàn diện, bạn phải cung cấp một bộ sưu tập gồm ít nhất 250 tài liệu và tối thiểu 100 chú thích cho mỗi loại thực thể. Hôm nay, chúng tôi thông báo rằng, nhờ những cải tiến gần đây trong các mô hình cơ bản của Amazon Complusive, chúng tôi đã giảm các yêu cầu tối thiểu để đào tạo một trình nhận dạng với các tệp chú thích CSV văn bản thuần túy. Giờ đây, bạn có thể xây dựng mô hình nhận dạng thực thể tùy chỉnh với ít nhất ba tài liệu và 25 chú thích cho mỗi loại thực thể. Bạn có thể tìm thêm thông tin chi tiết về các giới hạn dịch vụ mới trong Nguyên tắc và hạn ngạch.

Để giới thiệu cách giảm này có thể giúp bạn bắt đầu với việc tạo công cụ nhận dạng thực thể tùy chỉnh, chúng tôi đã chạy một số thử nghiệm trên một số bộ dữ liệu nguồn mở và số liệu hiệu suất được thu thập. Trong bài đăng này, chúng tôi hướng dẫn bạn quy trình đo điểm chuẩn và kết quả chúng tôi thu được khi làm việc trên tập dữ liệu được lấy mẫu con.

Chuẩn bị tập dữ liệu

Trong bài đăng này, chúng tôi giải thích cách chúng tôi đào tạo một trình nhận dạng thực thể tùy chỉnh của Amazon Toàn diện bằng cách sử dụng các tài liệu có chú thích. Nói chung, chú thích có thể được cung cấp dưới dạng Tệp CSV, An tệp kê khai tăng cường được tạo bởi Ground Truth, Hoặc một PDF file. Trọng tâm của chúng tôi là chú thích văn bản thuần CSV, vì đây là loại chú thích bị ảnh hưởng bởi các yêu cầu tối thiểu mới. Tệp CSV phải có cấu trúc sau:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENTITY_TYPE_1
documents.txt, 1, 0, 7, ENTITY_TYPE_2

Các trường liên quan như sau:

  • Tập tin - Tên tệp chứa tài liệu
  • Dòng - Số dòng chứa thực thể, bắt đầu bằng dòng 0
  • Bắt đầu Bù đắp - Phần bù ký tự trong văn bản đầu vào (so với đầu dòng) cho biết vị trí bắt đầu thực thể, coi rằng ký tự đầu tiên nằm ở vị trí 0
  • Kết thúc bù đắp - Độ lệch ký tự trong văn bản đầu vào cho biết nơi thực thể kết thúc
  • Kiểu - Tên của loại thực thể bạn muốn xác định

Ngoài ra, khi sử dụng phương pháp này, bạn phải cung cấp một bộ sưu tập các tài liệu đào tạo dưới dạng tệp .txt với một tài liệu trên mỗi dòng hoặc một tài liệu trên mỗi tệp.

Đối với các thử nghiệm của chúng tôi, chúng tôi đã sử dụng Điểm chuẩn hiểu ngôn ngữ tự nhiên SNIPS, một tập dữ liệu về các câu nói do nguồn lực cộng đồng phân phối cho bảy ý định của người dùng (AddToPlaylist, BookRestaurant, GetWeather, PlayMusic, RateBook, SearchCreativeWork, SearchScreeningEvent). Tập dữ liệu đã được xuất bản vào năm 2018 trong bối cảnh của bài báo Nền tảng giọng nói Snips: một hệ thống hiểu ngôn ngữ nói được nhúng cho các giao diện giọng nói riêng tư theo thiết kế bởi Coucke, et al.

Tập dữ liệu SNIPS được tạo từ một tập hợp các tệp JSON cô đọng cả chú thích và tệp văn bản thô. Sau đây là một đoạn trích từ tập dữ liệu:

{
   "annotations":{
      "named_entity":[
         {
            "start":16,
            "end":36,
            "extent":"within the same area",
            "tag":"spatial_relation"
         },
         {
            "start":40,
            "end":51,
            "extent":"Lawrence St",
            "tag":"poi"
         },
         {
            "start":67,
            "end":70,
            "extent":"one",
            "tag":"party_size_number"
         }
      ],
      "intent":"BookRestaurant"
   },
   "raw_text":"I'd like to eat within the same area of Lawrence St for a party of one"
}

Trước khi tạo trình nhận dạng đối tượng, chúng tôi đã chuyển đổi chú thích SNIPS và tệp văn bản thô thành tệp chú thích CSV và tệp tài liệu .txt.

Sau đây là một đoạn trích từ annotations.csv tập tin:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 16, 36, spatial_relation
documents.txt, 0, 40, 51, poi
documents.txt, 0, 67, 70, party_size_number

Sau đây là một đoạn trích từ documents.txt tập tin:

I'd like to eat within the same area of Lawrence St for a party of one
Please book me a table for three at an american gastropub 
I would like to book a restaurant in Niagara Falls for 8 on June nineteenth
Can you book a table for a party of 6 close to DeKalb Av

Cấu hình lấy mẫu và quy trình đo điểm chuẩn

Đối với các thử nghiệm của mình, chúng tôi tập trung vào một tập hợp con các loại thực thể từ tập dữ liệu SNIPS:

  • Cuốn SáchNhà Hàng - Các loại thực thể: spatial_relation, poi, party_size_number, restaurant_name, city, timeRange, restaurant_type, served_dish, party_size_description, country, facility, state, sort, cuisine
  • Nhận thời tiết - Các loại thực thể: condition_temperature, current_location, geographic_poi, timeRange, state, spatial_relation, condition_description, city, country
  • Chơi nhạc - Các loại thực thể: track, artist, music_item, service, genre, sort, playlist, album, year

Hơn nữa, chúng tôi đã lấy mẫu con của từng tập dữ liệu để có được các cấu hình khác nhau về số lượng tài liệu được lấy mẫu để đào tạo và số lượng chú thích cho mỗi thực thể (còn được gọi là ảnh chụp). Điều này được thực hiện bằng cách sử dụng tập lệnh tùy chỉnh được thiết kế để tạo tập dữ liệu được lấy mẫu con trong đó mỗi loại thực thể xuất hiện ít nhất k lần, trong vòng tối thiểu n các tài liệu.

Mỗi mô hình được đào tạo bằng cách sử dụng một mẫu con cụ thể của bộ dữ liệu đào tạo; chín cấu hình mô hình được minh họa trong bảng sau.

Tên tập dữ liệu được lấy mẫu con Số lượng tài liệu được lấy mẫu để đào tạo Số lượng tài liệu được lấy mẫu để kiểm tra Số lượng chú thích trung bình cho mỗi loại thực thể (ảnh)
snips-BookRestaurant-subsample-A 132 17 33
snips-BookRestaurant-subsample-B 257 33 64
snips-BookRestaurant-subsample-C 508 64 128
snips-GetWeather-subsample-A 91 12 25
snips-GetWeather-subsample-B 185 24 49
snips-GetWeather-subsample-C 361 46 95
snips-PlayMusic-subsample-A 130 17 30
snips-PlayMusic-subsample-B 254 32 60
snips-PlayMusic-subsample-C 505 64 119

Để đo độ chính xác của các mô hình của mình, chúng tôi đã thu thập các chỉ số đánh giá mà Amazon Complusive tự động tính toán khi đào tạo một trình nhận dạng thực thể:

  • Độ chính xác - Điều này cho biết phần nhỏ các thực thể được trình nhận dạng phát hiện được nhận dạng và gắn nhãn chính xác. Từ một góc độ khác, độ chính xác có thể được định nghĩa là tp / (tp + fp), Nơi tp là số lượng dương tính thực sự (nhận dạng đúng) và fp là số lần dương tính giả (nhận dạng không chính xác).
  • Nhớ lại - Điều này cho biết phần nhỏ các thực thể có trong tài liệu được xác định và dán nhãn chính xác. Nó được tính là tp / (tp + fn), Nơi tp là số lượng tích cực thực sự và fn là số lượng âm tính giả (bị bỏ sót nhận dạng).
  • Điểm F1 - Đây là sự kết hợp của các chỉ số độ chính xác và số liệu thu hồi, đo lường độ chính xác tổng thể của mô hình. Điểm F1 là trung bình hài hòa của các chỉ số độ chính xác và thu hồi, và được tính như 2 * Độ chính xác * Nhớ lại / (Độ chính xác + Nhớ lại).

Để so sánh hiệu suất của các trình nhận dạng đối tượng của chúng tôi, chúng tôi tập trung vào điểm F1.

Xét rằng, với một tập dữ liệu và kích thước mẫu con (về số lượng tài liệu và ảnh), bạn có thể tạo các mẫu con khác nhau, chúng tôi đã tạo 10 mẫu con cho mỗi một trong chín cấu hình, đào tạo các mô hình nhận dạng đối tượng, số liệu hiệu suất được thu thập và tính trung bình chúng bằng cách sử dụng trung bình vi mô. Điều này cho phép chúng tôi có được kết quả ổn định hơn, đặc biệt là đối với các mẫu phụ ít cảnh quay.

Kết quả

Bảng sau đây cho thấy điểm F1 trung bình vi mô được tính toán dựa trên các chỉ số hiệu suất do Amazon Comprehend trả về sau khi đào tạo từng trình nhận dạng thực thể.

Tên tập dữ liệu được lấy mẫu con Điểm F1 trung bình vi mô của trình nhận dạng đối tượng (%)
snips-BookRestaurant-subsample-A 86.89
snips-BookRestaurant-subsample-B 90.18
snips-BookRestaurant-subsample-C 92.84
snips-GetWeather-subsample-A 84.73
snips-GetWeather-subsample-B 93.27
snips-GetWeather-subsample-C 93.43
snips-PlayMusic-subsample-A 80.61
snips-PlayMusic-subsample-B 81.80
snips-PlayMusic-subsample-C 85.04

Biểu đồ cột sau đây cho thấy phân phối điểm F1 cho chín cấu hình mà chúng tôi đã đào tạo như được mô tả trong phần trước.

Chúng tôi có thể thấy rằng chúng tôi đã có thể đào tạo thành công các mô hình nhận dạng thực thể tùy chỉnh ngay cả khi chỉ có 25 chú thích cho mỗi loại thực thể. Nếu chúng ta tập trung vào ba tập dữ liệu được lấy mẫu con nhỏ nhất (snips-BookRestaurant-subsample-A, snips-GetWeather-subsample-Asnips-PlayMusic-subsample-A), chúng tôi thấy rằng, trung bình, chúng tôi có thể đạt được điểm F1 là 84%, đây là một kết quả khá tốt khi xem xét số lượng tài liệu và chú thích hạn chế mà chúng tôi đã sử dụng. Nếu chúng tôi muốn cải thiện hiệu suất của mô hình của mình, chúng tôi có thể thu thập các tài liệu và chú thích bổ sung và đào tạo một mô hình mới với nhiều dữ liệu hơn. Ví dụ: với các mẫu con có kích thước trung bình (snips-BookRestaurant-subsample-B, snips-GetWeather-subsample-Bsnips-PlayMusic-subsample-B), chứa nhiều tài liệu và chú thích gấp đôi, chúng tôi thu được điểm F1 trung bình là 88% (cải thiện 5% đối với subsample-A bộ dữ liệu). Cuối cùng, tập dữ liệu được lấy mẫu con lớn hơn (snips-BookRestaurant-subsample-C, snips-GetWeather-subsample-Csnips-PlayMusic-subsample-C), chứa nhiều dữ liệu được chú thích hơn (xấp xỉ bốn lần số lượng tài liệu và chú thích được sử dụng cho subsample-A bộ dữ liệu), đã cải thiện thêm 2%, nâng điểm F1 trung bình lên 90%.

Kết luận

Trong bài đăng này, chúng tôi đã thông báo về việc giảm các yêu cầu tối thiểu để đào tạo một trình nhận dạng thực thể tùy chỉnh với Amazon Comprehend và chạy một số điểm chuẩn trên bộ dữ liệu nguồn mở để cho thấy việc giảm bớt này có thể giúp bạn bắt đầu như thế nào. Bắt đầu từ hôm nay, bạn có thể tạo mô hình nhận dạng thực thể với ít nhất 25 chú thích cho mỗi loại thực thể (thay vì 100) và ít nhất ba tài liệu (thay vì 250). Với thông báo này, chúng tôi đang hạ thấp rào cản gia nhập đối với những người dùng quan tâm đến việc sử dụng công nghệ nhận dạng thực thể tùy chỉnh của Amazon Toàn diện. Giờ đây, bạn có thể bắt đầu chạy thử nghiệm của mình với một bộ sưu tập rất nhỏ các tài liệu được chú thích, phân tích kết quả sơ bộ và lặp lại bằng cách bao gồm các chú thích và tài liệu bổ sung nếu bạn cần một mô hình nhận dạng thực thể chính xác hơn cho trường hợp sử dụng của mình.

Để tìm hiểu thêm và bắt đầu với công cụ nhận dạng thực thể tùy chỉnh, hãy tham khảo Nhận dạng thực thể tùy chỉnh.

Đặc biệt cảm ơn các đồng nghiệp của tôi Jyoti Bansal và Jie Ma vì sự giúp đỡ quý báu của họ trong việc chuẩn bị dữ liệu và đo điểm chuẩn.


Giới thiệu về tác giả

Luca Guida là Kiến trúc sư Giải pháp tại AWS; anh ấy có trụ sở tại Milan và hỗ trợ các ISV của Ý trong hành trình trên đám mây của họ. Với nền tảng học thuật về khoa học máy tính và kỹ thuật, anh ấy bắt đầu phát triển niềm đam mê AI / ML của mình tại trường đại học. Là một thành viên của cộng đồng xử lý ngôn ngữ tự nhiên (NLP) trong AWS, Luca giúp khách hàng thành công trong khi áp dụng các dịch vụ AI / ML.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?