Logo Zephyrnet

4 Lời khuyên cho việc quản lý tập dữ liệu cho các dự án NLP

Ngày:

4 Lời khuyên cho việc quản lý tập dữ liệu cho các dự án NLP

Bạn đã nghe nó trước đây và bạn sẽ nghe thấy nó một lần nữa. Đó là tất cả về dữ liệu. Việc quản lý dữ liệu phù hợp cũng quan trọng hơn việc chỉ quản lý bất kỳ dữ liệu nào. Khi xử lý dữ liệu văn bản, nhiều bài học khó kiếm được đã được những người khác học được trong nhiều năm và đây là bốn mẹo quản lý dữ liệu mà bạn nên chắc chắn tuân theo trong dự án NLP tiếp theo của mình.


By Paul Barba, Nhà khoa học trưởng, Lexalytics.

Lexalytics 4 mẹo quản lý tập dữ liệu

Sau nhiều năm rút ra những bài học đau đớn từ việc quản lý và triển khai các dự án AI và ML, tôi tin rằng phần quan trọng nhất của câu đố là chọn tập dữ liệu phù hợp cho vấn đề hiện tại, đặc biệt là khi nói đến văn bản hoặc Vấn đề về NLP.

Mặc dù thuật toán được sử dụng và các tham số của nó là rất cần thiết nhưng các khía cạnh này tương đối dễ thay đổi khi cần thiết — và việc giảm chi phí về thời gian sử dụng máy trong những năm gần đây đồng nghĩa với việc việc thực hiện sửa chữa ngày càng ít tốn kém hơn.

Tuy nhiên, thời gian của con người vốn đã rất tốn kém và khi dữ liệu không còn hữu ích thì đó là một sự lãng phí tài nguyên đáng xấu hổ. Với ý nghĩ đó, tôi đã phác thảo bốn mẹo, kèm theo các ví dụ và giai thoại, về cách quản lý tập dữ liệu cuối cùng cho NLP và phân tích văn bản.

Mẹo #1:

Bài học quan trọng nhất là hãy bắt đầu từ việc nhỏ, nhỏ nhất có thể. Cố gắng đào tạo một mô hình càng sớm càng tốt, thậm chí với ít nhất 50 đến 100 ví dụ hoặc thậm chí chỉ một vài mẫu khi sử dụng phương pháp tiếp cận không bắn.

Nếu bạn muốn có nhiều lớp trong mô hình NER của mình, hãy bắt đầu với một danh mục, đánh dấu nó và xem nó hoạt động như thế nào vì bạn phát hiện ra bất kỳ vấn đề nào càng sớm thì càng dễ khắc phục.

Một giai thoại liên quan đến mẹo này: Đầu năm 2014, giống như nhiều công ty vào thời điểm đó, chúng tôi đã xây dựng một khung công nghệ máy học và bộ phận tiếp thị của chúng tôi cho rằng sẽ là một ý tưởng hay nếu sử dụng nó để cố gắng giải quyết vấn đề thư rác ngày càng gia tăng của chúng tôi.

Đột nhiên, hàng chục máy đắt tiền đang chạy trên Amazon cố gắng dọn sạch các hoạt động thu thập dữ liệu thông thường và mô hình không hoạt động. Chúng tôi đã đốt rất nhiều tiền mặt và những người trong công ty nắm giữ hầu bao không mấy hài lòng. Nhìn lại, đây là một dự án có hàng tá cơ hội để thực hiện ở quy mô nhỏ, có thể giải thích được và nắm bắt mọi vấn đề ban đầu với mô hình mà không cần máy móc để thực hiện tất cả công việc.

Mẹo #2:

Sử dụng bộ dữ liệu đại diện cho thế giới thực. Khi mới bắt đầu, các nhà khoa học dữ liệu có thể sử dụng bất cứ thứ gì có sẵn. SuperGLUE là một ví dụ; đối với tình cảm, bộ dữ liệu IMDB khá chuẩn; đối với các thực thể, có CoNLL '03.

Tuy nhiên, khi giải quyết một vấn đề trong lĩnh vực kinh doanh cụ thể và tìm cách thúc đẩy công nghệ tiên tiến nhất, điều quan trọng là phải xem xét liệu dữ liệu có thể hiện nội dung mà mô hình sẽ được áp dụng cho vấn đề kinh doanh cụ thể đó hay không.

Một giai thoại: Chúng tôi đã có một khách hàng tiềm năng đến với chúng tôi với rất nhiều dữ liệu. Họ đã đánh dấu hàng chục nghìn bài báo cho một hệ thống phân loại phức tạp, với hàng trăm nút khác nhau. (Một lần nữa, hãy bắt đầu từ việc nhỏ.)

Vì khách hàng tiềm năng đã thực hiện tất cả các công việc chuẩn bị nên họ đang tìm kiếm một đối tác để đào tạo người mẫu. Vì vậy, chúng tôi đã thực hiện các bước tiếp theo thông thường — cắt dữ liệu để đào tạo – kiểm tra – xác thực một số mô hình. Và nó đã hoạt động một cách ngoạn mục - thật đáng ngờ, khi nhìn lại - à, với điểm F lên đến tận những năm 90.

Chúng tôi đã giao các mô hình và khách hàng tiềm năng quay lại và nói rằng họ đã tạo ra một bộ thử nghiệm mới, nhưng các mô hình của chúng tôi chỉ đạt được khoảng 10%. Chúng tôi rất bối rối.

Khi chúng tôi yêu cầu họ chia sẻ dữ liệu thử nghiệm với chúng tôi, chúng tôi nhận ra rằng họ có một hồ dữ liệu mà họ lấy từ đó và mọi bài báo đều từ đó. một ngày duy nhất vào năm 2012: hàng chục nghìn bài báo từ một ngày trong lịch sử. Chuyện xảy ra là vào ngày hôm đó ở Tây Ban Nha xảy ra một thảm họa thiên nhiên, và bất cứ khi nào “Tây Ban Nha” chạy qua mô hình, nó sẽ gắn đất nước này với thiên tai. Mặc dù khối lượng dữ liệu rất lớn nhưng việc không nhận ra rằng nó được lấy từ một ngày đã làm sai lệch đáng kể mô hình được đào tạo.

Mẹo #3:

Theo dõi và ghi lại mọi thứ. Thật đơn giản để ghi lại nhiều thông tin hơn khi bạn theo dõi dữ liệu. Nó có thể nằm trong cơ sở dữ liệu ở một nơi khác và thậm chí không cần phải gắn trực tiếp với dự án bạn đang thực hiện, nhưng theo thời gian, bất cứ điều gì bạn không ghi lại sẽ bị mất vĩnh viễn, vì vậy hãy theo dõi nó.

Một ví dụ ở đây là với dấu thời gian. Nếu bạn liên tục thấy các chú thích không hợp lệ thì việc biết dấu thời gian có thể giúp hiểu ai đã gắn thẻ tài liệu nào và cho phép khắc phục khi có vấn đề phát sinh.

Tương tự, với dấu thời gian, phân tích có thể chỉ ra rằng có những thời điểm trong ngày hoặc các ngày trong tuần mà người chú thích kém tin cậy hơn. Ví dụ: với dữ liệu được đánh dấu sau bữa trưa từ 1:00-3:00 chiều, bạn có thể nhìn dữ liệu đó với con mắt hoài nghi hơn.

Mẹo #4:

Dành nguồn lực cho tương lai. Lấy dữ liệu được gắn nhãn là tiêu chuẩn vàng và có nhiều cách để có được dữ liệu đó, cho dù là khởi động, đồng chọn dữ liệu hay mua dữ liệu đó. Nhưng bạch kim tiêu chuẩn là up-to-date, dữ liệu được dán nhãn.

Nếu chúng ta học được điều gì trong năm qua thì đó là thế giới đang thay đổi. Điều này đặc biệt được phản ánh trong ngôn ngữ và văn bản. Phân tích văn bản và NLP chính xác là một vấn đề phức tạp vì ngôn ngữ luôn thay đổi và phát triển.

Một ví dụ về điều này là điện thoại thông minh. Vào thời kỳ đầu, các tính năng của điện thoại thông minh được nói đến bằng nhiều thuật ngữ khác với hiện nay. Trong khi mật độ điểm ảnh và sự hiện diện hay vắng mặt của trình phát đa phương tiện có thể là mối quan tâm hàng đầu của người mua thời đó, thì những tính năng tương tự ngày nay hầu như không được cân nhắc. Tương tự, thậm chí 5 năm trước, một cỗ máy có thể không hiểu rằng đại từ “họ” có thể là đại từ ngôi thứ ba số ít để chỉ một người trung tính về giới tính. Ngược lại, ngày nay việc sử dụng đại từ không nhị phân rất nhiều.

Thay vì nghĩ rằng bạn ML sản phẩm sẽ được khắc phục, sẽ có những thay đổi ngôn ngữ riêng mà bạn không thể lường trước nhưng vẫn muốn phản hồi, vì vậy hãy nhớ dành riêng nguồn lực để thực hiện điều đó.

Liên quan:

Coinsmart. Đặt cạnh Bitcoin-Börse ở Europa
Nguồn: https://www.kdnuggets.com/2021/05/4-tips-dataset-curation-nlp-projects.html

tại chỗ_img

Tin tức mới nhất

tại chỗ_img