Logo Zephyrnet

Ghi nhãn dữ liệu nhanh: Nó là gì và tại sao bạn cần nó

Ngày:

Ghi nhãn dữ liệu nhanh: Nó là gì và tại sao bạn cần nó

Khái niệm Agile trong phát triển phần mềm đã tạo nên làn sóng trên khắp các ngành công nghiệp với cuộc cách mạng về năng suất của nó. Liệu những lợi ích tương tự có thể được áp dụng cho nhiệm vụ thường khó khăn là chú thích các tập dữ liệu cho học máy không?


By Jennifer Prendki, Người sáng lập và Giám đốc điều hành @ Alectio, Doanh nhân học máy.

Khái niệm về sự nhanh nhẹn chắc chắn là một khái niệm phổ biến trong công nghệ, nhưng không phải là một khái niệm mà bạn thường liên tưởng đến việc ghi nhãn dữ liệu. Và khá dễ hiểu tại sao: “Agile” thường truyền cảm hứng về hiệu quả. Tuy nhiên, việc dán nhãn hầu như không được thảo luận trong các vòng kết nối ML mà không gây ra một loạt những tiếng thở dài thất vọng.

Hình 1: Tuyên ngôn Agile mô tả một tập hợp các 'quy tắc' mà các nhà phát triển phần mềm tin rằng sẽ làm cho họ năng suất hơn.

Để hiểu Agile được áp dụng rộng rãi như thế nào, bạn cần quay trở lại nguồn gốc của nó. Năm 2001, một nhóm gồm 17 kỹ sư phần mềm đã gặp nhau tại một khu nghỉ mát ở Utah để tìm cách làm cho ngành của họ tốt hơn. Họ cho rằng cách thức quản lý các dự án là không phù hợp, không hiệu quả và bị quản lý quá mức. Vì vậy, họ đã đưa ra Tuyên ngôn Agile, một bộ hướng dẫn mà họ nghĩ có thể cải thiện thông lượng (và mức độ tỉnh táo!) Của các nhóm kỹ sư phần mềm. Tuyên ngôn Agile là một sự phản đối kịch liệt chống lại việc thiếu quy trình đang cản trở tiến độ. Và theo nhiều cách, đây chính xác là những gì cần thiết cho việc ghi nhãn dữ liệu.

Hình 2: Tìm hiểu sâu về Tuyên ngôn Agile và các nguyên tắc cốt lõi của nó.

Quay lại Học máy. Không nghi ngờ gì về điều đó: những tiến bộ mà chúng tôi đã đạt được trong lĩnh vực này trong những thập kỷ qua chỉ đơn giản là đáng kinh ngạc. Trên thực tế, hầu hết các chuyên gia đều đồng ý rằng công nghệ đã phát triển quá nhanh khiến luật pháp và thể chế của chúng ta không thể theo kịp. (Không thuyết phục? Chỉ cần nghĩ đến những hậu quả nghiêm trọng mà DeepFakes có thể gây ra đối với hòa bình thế giới). Tuy nhiên, bất chấp sự bùng nổ của các sản phẩm AI mới, sự thành công của các dự án ML chỉ tập trung vào một thứ: dữ liệu. Nếu bạn không có phương tiện để thu thập, lưu trữ, xác thực, làm sạch hoặc xử lý dữ liệu, thì mô hình ML của bạn sẽ mãi là một giấc mơ xa vời. Ngay cả OpenAI, một trong những công ty ML uy tín nhất trên thế giới, quyết định đóng cửa một trong các phòng ban của họ sau khi đi đến điều khoản rằng họ không có phương tiện để thu thập dữ liệu cần thiết cho các nhà nghiên cứu của họ.

Và nếu bạn nghĩ rằng tất cả những gì cần làm là tìm một tập dữ liệu nguồn mở để làm việc, hãy nghĩ lại: không chỉ các trường hợp sử dụng mà dữ liệu nguồn mở có liên quan còn tồn tại rất ít và xa, hầu hết các bộ dữ liệu này cũng bị nhầm lẫn một cách đáng ngạc nhiên, và việc sử dụng chúng trong sản xuất sẽ không có gì là thiếu trách nhiệm.

Đương nhiên, với phần cứng ngày càng tốt hơn và giá cả phải chăng hơn, việc thu thập tập dữ liệu của riêng bạn sẽ không còn là vấn đề nữa. Tuy nhiên, vấn đề cốt lõi: những dữ liệu đó không thể sử dụng được vì chúng cần được chú thích. Và bất chấp cách nhìn của nó, đó không phải là một nhiệm vụ dễ dàng.

Hình 3: Chú thích tất cả các mặt phẳng trong hình ảnh này để phát hiện đối tượng hoặc các trường hợp sử dụng phân đoạn đối tượng có thể mất hơn một giờ, ngay cả đối với một chuyên gia dày dạn kinh nghiệm. Hãy tưởng tượng bạn phải làm điều đó cho 50,000 hình ảnh và phải đảm bảo chất lượng của các chú thích mà không cần trợ giúp.

Việc ghi nhãn dữ liệu là một điều khó khăn. Đối với nhiều nhà khoa học ML, việc chú thích dữ liệu chiếm một phần lớn khối lượng công việc của họ. Và trong khi tự chú thích dữ liệu không phải là một nhiệm vụ thú vị đối với hầu hết mọi người, thì việc thuê ngoài quy trình cho bên thứ ba có thể còn tẻ nhạt hơn.

Hình 4: Hình ảnh một trong những trang trình bày của Andrey Karpathy tại Train AI 2018, nơi anh ấy mô tả thời gian anh ấy và nhóm của mình dành cho việc chuẩn bị dữ liệu tại Tesla.

Hãy tưởng tượng rằng bạn phải giải thích với một người hoàn toàn xa lạ mà bạn chưa từng gặp và không thể trực tiếp giao tiếp với những gì bạn cho là một tweet độc hại, một kết quả có liên quan đến một truy vấn tìm kiếm hoặc thậm chí là một người đi bộ trên ảnh. Hãy tưởng tượng đảm bảo rằng hàng trăm người sẽ hiểu hướng dẫn của bạn theo cùng một cách mặc dù mỗi người có thể có quan điểm và bối cảnh khác nhau và họ có thể không biết gì về những gì bạn đang cố gắng đạt được. Đó chính xác là những gì liên quan đến việc thuê ngoài quy trình ghi nhãn của bạn.

Hình 5: Những người trên quảng cáo có nên được gắn nhãn là người không?

Điều này liên quan gì đến Agile? Chà, nếu bạn vẫn chưa đoán ra, thì sự thất vọng ngày càng tăng của các nhà khoa học ML về việc dán nhãn có thể là dấu hiệu của chúng ta rằng đã đến lúc phải suy nghĩ lại về cách chúng ta hoàn thành công việc. Đã đến lúc Tuyên ngôn Agile về Ghi nhãn Dữ liệu.

Tuyên ngôn Agile về Phát triển Phần mềm về cơ bản tổng hợp thành một khái niệm cơ bản: phản ứng. Nó nói rằng một cách tiếp cận cứng nhắc không hoạt động. Thay vào đó, các kỹ sư phần mềm nên dựa vào phản hồi – từ khách hàng, từ các đồng nghiệp. Họ nên sẵn sàng thích nghi và học hỏi từ những sai lầm của mình để đảm bảo có thể đạt được mục tiêu cuối cùng. Điều đó thật thú vị vì việc thiếu phản hồi và phản hồi chính là lý do khiến các nhóm ngại thuê ngoài. Đó là lý do chính tại sao các nhiệm vụ ghi nhãn thường tốn rất nhiều thời gian và có thể khiến các công ty tiêu tốn hàng triệu đô la.

Một Tuyên ngôn Agile thành công về Ghi nhãn Dữ liệu nên bắt đầu với nguyên tắc tương tự về tính phản ứng, điều đáng ngạc nhiên là không có trong bản tường thuật của các công ty ghi nhãn dữ liệu. Chuẩn bị thành công dữ liệu đào tạo bao gồm hợp tác, phản hồi và kỷ luật.

Hình 5: Tuyên ngôn Agile về Ghi nhãn Dữ liệu.

1. Kết hợp nhiều phương pháp / công cụ

Khái niệm của Tự động gắn nhãn, bao gồm việc sử dụng mô hình ML để tạo nhãn “tổng hợp”, ngày càng trở nên phổ biến trong những năm gần đây, mang lại hy vọng cho những người mệt mỏi với hiện trạng, nhưng chỉ là một nỗ lực trong việc hợp lý hóa việc ghi nhãn dữ liệu. Tuy nhiên, sự thật là không có cách tiếp cận duy nhất nào giải quyết được tất cả các vấn đề: chẳng hạn, trung tâm của việc gắn nhãn tự động là bài toán con gà và quả trứng. Đó là lý do tại sao khái niệm Con người trong vòng lặp việc dán nhãn đang đạt được sức hút.

Điều đó nói lên rằng, những nỗ lực đó cảm thấy không có sự phối hợp và chẳng giúp ích gì cho các công ty, những người thường gặp khó khăn trong việc xem những mô hình mới đó áp dụng như thế nào đối với những thách thức của chính họ. Đó là lý do tại sao ngành công nghiệp này cần có nhiều khả năng hiển thị và minh bạch hơn liên quan đến các công cụ hiện có (một nỗ lực ban đầu tuyệt vời về điều này là Hướng dẫn giải pháp TWIML, mặc dù nó không được nhắm mục tiêu cụ thể đến các giải pháp ghi nhãn), dễ dàng tích hợp giữa các công cụ đó, cũng như quy trình ghi nhãn end-to-end tích hợp tự nhiên với phần còn lại của vòng đời ML.

2. Tận dụng sức mạnh của thị trường

Gia công quy trình có thể không phải là một lựa chọn cho các trường hợp sử dụng đặc biệt mà không có bên thứ ba nào có khả năng mang lại kết quả thỏa đáng. Đó là bởi vì hầu hết các công ty dán nhãn dựa vào nguồn cung ứng cộng đồng hoặc BPO, có nghĩa là người chú thích của họ không phải là lực lượng lao động có tay nghề cao - họ sẽ không thể ghi chú ung thư não trên MRI cho bạn. May mắn thay, một số công ty khởi nghiệp hiện đang tập trung vào việc cung cấp các dịch vụ chuyên biệt cho các ngành dọc cụ thể.

Nhưng bất kể bạn có cần các chuyên gia trợ giúp hay không, vẫn rất khó để xác định công ty phù hợp với bạn. Hầu hết các công ty dán nhãn đều làm tất cả nhưng cuối cùng đều có điểm mạnh và điểm yếu riêng, mà khách hàng thường chỉ phát hiện ra sau khi ký hợp đồng dài một năm. So sánh tất cả các tùy chọn là chìa khóa để tìm ra các chú thích tốt nhất hiện có tại thời điểm bạn cần chúng và phải là một phần thiết yếu của quy trình.

3. Thực hiện một cách tiếp cận lặp đi lặp lại

Quá trình gắn nhãn dữ liệu thực sự được miễn trừ khỏi bất kỳ vòng phản hồi nào một cách đáng ngạc nhiên, mặc dù phản hồi nằm ở trung tâm của Học máy. Không ai có thể nghĩ đến việc phát triển một mô hình một cách mù quáng, tuy nhiên, đó là cách truyền thống được thực hiện để tạo nhãn. Thực hiện cách tiếp cận thu thập dữ liệu-đi-chạy để điều chỉnh và tối ưu hóa quy trình gắn nhãn của bạn và tập dữ liệu của bạn cho mô hình chắc chắn là cách để đi. Đó là lý do tại sao mô hình dựa trên con người trong vòng lặp, nơi máy móc ghi chú trước và con người xác nhận, là người chiến thắng rõ ràng.

Một cách tiếp cận thậm chí còn hứa hẹn hơn bao gồm lắng nghe các manh mối của mô hình để xác định vị trí và lý do tại sao mô hình không thành công, có khả năng xác định các nhãn xấu và sửa chúng nếu cần. Một cách để làm điều này là sử dụng Active Learning.

4. Ưu ái chất lượng hơn số lượng

Nếu bạn được dạy rằng càng nhiều dữ liệu thì càng tốt, bạn chắc chắn không phải là người duy nhất: đó là một trong những quan niệm sai lầm phổ biến nhất trong Học máy. Tuy nhiên, không phải vấn đề âm lượng mà là sự đa dạng. Quy mô chỉ đơn giản là được đánh giá quá cao. Rõ ràng là bạn cần một số dữ liệu để khởi động, nhưng số lượng lớn dữ liệu không thể tránh khỏi dẫn đến lợi nhuận giảm dần — đó là kinh tế học thuần túy.

Thay vào đó, việc đầu tư thời gian và tiền bạc vào việc dán nhãn phù hợp cho tập dữ liệu đào tạo được lựa chọn một cách chiến lược thường có lợi hơn là dán nhãn vô số dữ liệu vô dụng. Đảm bảo rằng việc quản lý dữ liệu (khái niệm lấy mẫu các hồ sơ đào tạo có tác động mạnh nhất) đi vào vòng đời ML sẽ là trọng tâm chính trong MLOps trong vài năm tới.

Giống như hầu hết các nhà khoa học dữ liệu, nếu bạn cảm thấy thất vọng về việc ghi nhãn dữ liệu, thì có lẽ đã đến lúc thử tất cả những ý tưởng đó. Cũng giống như những ngày đầu của Agile, không có giới luật nào là đặc biệt khó, nhưng chúng đều đòi hỏi sự tự giác và ý thức.

Chắc chắn còn một chặng đường dài để đưa những phương pháp hay nhất đó vào thói quen hàng ngày của các nhà khoa học dữ liệu trên toàn thế giới, nhưng giống như bất kỳ sự thay đổi có ý nghĩa nào, nó bắt đầu với một thay đổi. Hãy nhớ rằng trở lại vào năm 2001, một cuộc họp tại một khu nghỉ mát trượt tuyết là tất cả những gì cần thiết để khởi động động cơ dẫn đến một cuộc cách mạng phát triển phần mềm. Cuộc cách mạng của chúng ta có thể đang diễn ra trước mắt chúng ta không nghi ngờ gì — trên thực tế, nó có thể là như vậy. Vì vậy, hãy theo dõi và tận hưởng chuyến đi.

Tiểu sử: Tiến sĩ Jennifer Prendki là người sáng lập và Giám đốc điều hành của Alectio, nền tảng Hoạt động chuẩn bị dữ liệu theo hướng ML đầu tiên. Cô và nhóm của mình đang thực hiện sứ mệnh giúp các nhóm ML xây dựng mô hình với ít dữ liệu hơn và loại bỏ tất cả các điểm khó khăn liên quan đến việc chuẩn bị dữ liệu "truyền thống". Trước Alectio, Jennifer là Phó Giám đốc Học máy tại Hình XNUMX; cô ấy cũng đã xây dựng toàn bộ chức năng ML từ đầu tại Atlassian và dẫn đầu nhiều dự án Khoa học dữ liệu trong nhóm Tìm kiếm tại Walmart Labs. Cô được công nhận là một trong những chuyên gia hàng đầu trong ngành về Học tập tích cực và quản lý vòng đời ML, đồng thời là một diễn giả xuất sắc, người thích giải quyết cả khán giả kỹ thuật và phi kỹ thuật.

Liên quan:


PlatoAi. Web3 được mô phỏng lại. Khuếch đại dữ liệu thông minh.
Nhấn vào đây để truy cập.

Nguồn: https://www.kdnuggets.com/2021/08/agile-data-labeling.html

tại chỗ_img

Tin tức mới nhất

tại chỗ_img