Logo Zephyrnet

Khảo sát nghiên cứu AI cho thấy học máy cần thay đổi văn hóa

Ngày:

Cộng đồng máy học, đặc biệt là trong lĩnh vực thị giác máy tính và xử lý ngôn ngữ, có vấn đề về văn hóa dữ liệu. Đó là theo một cuộc khảo sát nghiên cứu về các hoạt động thu thập và sử dụng tập dữ liệu của cộng đồng được công bố vào đầu tháng này.

Điều cần thiết là thay đổi sự phụ thuộc vào các bộ dữ liệu lớn, được quản lý kém được sử dụng để đào tạo các mô hình máy học. Thay vào đó, nghiên cứu đề xuất một nền văn hóa quan tâm đến những người được đại diện trong bộ dữ liệu và tôn trọng quyền riêng tư và tài sản của họ. Nhưng trong môi trường học máy ngày nay, các tác giả khảo sát cho biết, “mọi thứ đều ổn”.

"Dữ liệu và (các) nội dung của nó: Một cuộc khảo sát về sự phát triển và sử dụng tập dữ liệu trong học máy” được viết bởi các nhà ngôn ngữ học Amandalynne Paullada và Emily Bender của Đại học Washington, đồng nghiệp Inioluwa Deborah Raji của Mozilla Foundation, và các nhà khoa học nghiên cứu của Google Emily Denton và Alex Hanna. Bài báo kết luận rằng các mô hình ngôn ngữ lớn có khả năng duy trì định kiến ​​và thành kiến ​​đối với một loạt các cộng đồng bị thiệt thòi và rằng các bộ dữ liệu được chú thích kém là một phần của vấn đề.

Công việc này cũng kêu gọi thực hành quản lý dữ liệu và tài liệu chặt chẽ hơn. Các bộ dữ liệu được thực hiện theo cách này chắc chắn sẽ đòi hỏi nhiều thời gian, tiền bạc và công sức hơn nhưng sẽ “khuyến khích nghiên cứu các phương pháp tiếp cận máy học vượt ra ngoài mô hình quy mô thần tượng hóa kỹ thuật hiện tại”.

“Chúng tôi lập luận rằng các bản sửa lỗi chỉ tập trung vào việc cải thiện bộ dữ liệu bằng cách làm cho chúng trở nên tiêu biểu hơn hoặc mang tính thách thức hơn có thể bỏ sót điểm tổng quát hơn do những lời phê bình này nêu ra và chúng ta sẽ bị mắc kẹt trong trò chơi đánh chuột chũi thay vì tiến bộ , miễn là các khái niệm về 'tiến độ' phần lớn được xác định bởi hiệu suất trên các tập dữ liệu,” bài báo viết. “Nếu điều này xảy ra, chúng tôi dự đoán rằng học máy với tư cách là một lĩnh vực sẽ có vị trí tốt hơn để hiểu cách công nghệ của nó tác động đến con người và thiết kế các giải pháp hoạt động với độ trung thực và công bằng trong bối cảnh triển khai của chúng.”

Các sự kiện trong năm qua đã làm sáng tỏ những thiếu sót của cộng đồng máy học và thường gây hại cho những người từ các cộng đồng bị thiệt thòi. Sau đó Google sa thải Timnit Gebru, một sự cố mà nhân viên Google gọi là trường hợp “kiểm duyệt nghiên cứu chưa từng có,” Reuters đưa tin hôm thứ Tư rằng công ty đã bắt đầu tiến hành đánh giá các tài liệu nghiên cứu về “các chủ đề nhạy cảm” và rằng trong ít nhất ba lần, các tác giả đã được yêu cầu không đặt công nghệ của Google dưới ánh sáng tiêu cực, theo thông tin liên lạc nội bộ và những người quen thuộc với vấn đề này. Và một The Washington Post Hồ sơ của Gebru tuần này tiết lộ rằng giám đốc Google AI Jeff Dean đã yêu cầu cô điều tra tác động tiêu cực của các mô hình ngôn ngữ lớn vào mùa thu này.

Trong các cuộc trò chuyện về GPT-3, đồng tác giả Emily Bender trước đây đã nói với VentureBeat cô ấy muốn thấy cộng đồng NLP ưu tiên khoa học tốt. Bender là đồng tác giả chính của một bài báo với Gebru điều đó đã được đưa ra ánh sáng vào đầu tháng này sau khi Google sa thải Gebru. Bài báo đó đã xem xét việc sử dụng các mô hình ngôn ngữ lớn có thể tác động như thế nào đến các cộng đồng bị thiệt thòi. Tuần trước, những người tổ chức hội nghị Công bằng, Trách nhiệm giải trình và Minh bạch (FAccT) đã chấp nhận xuất bản bài báo.

Cũng trong tuần trước, Hanna đã tham gia cùng các đồng nghiệp trong nhóm Đạo đức AI tại Google và đã gửi một lưu ý tới lãnh đạo Google yêu cầu Gebru được phục hồi. Cùng ngày, các thành viên của Quốc hội quen thuộc với sự thiên vị thuật toán đã gửi thư cho Giám đốc điều hành Google Sundar Pichai yêu cầu câu trả lời.

Quyết định kiểm duyệt các nhà nghiên cứu AI và sa thải Gebru của công ty có thể mang ý nghĩa chính sách. Ngay bây giờ, Google, MIT và Stanford là một số nhà sản xuất nghiên cứu AI tích cực hoặc có ảnh hưởng nhất xuất bản tại các hội nghị học thuật lớn hàng năm. Các thành viên của Quốc hội đã đề xuất quy định để bảo vệ chống lại sự thiên vị thuật toán, trong khi các chuyên gia kêu gọi tăng thuế đối với Big Tech, một phần để tài trợ cho nghiên cứu độc lập. VentureBeat gần đây đã nói chuyện với sáu chuyên gia về AI, đạo đức và luật pháp về cách cuộc khủng hoảng đạo đức AI của Google có thể ảnh hưởng đến chính sách.

Đầu tháng này, “Dữ liệu và nội dung (không) của nó” đã nhận được giải thưởng từ ban tổ chức hội thảo Hồi cứu, Khảo sát và Phân tích tổng hợp ML tại NeurIPS, một hội nghị nghiên cứu AI đã thu hút 22,000 người tham dự. Gần 2,000 bài báo đã được xuất bản tại NeurIPS năm nay, bao gồm các công việc liên quan đến phát hiện lỗi cho các hệ thống quan trọng về an toàn; các phương pháp lan truyền ngược nhanh hơn, hiệu quả hơn; và sự khởi đầu của một dự án mà coi biến đổi khí hậu là một thách thức lớn về học máy.

Một bài báo khác của Hanna, được trình bày tại hội thảo Resistance AI, kêu gọi cộng đồng học máy tiến hành vượt quá quy mô khi xem xét cách giải quyết các vấn đề xã hội mang tính hệ thống và khẳng định rằng cần phải chống lại tư duy quy mô. Hanna đã nói chuyện với VentureBeat vào đầu năm nay về việc sử dụng lý thuyết chủng tộc quan trọng khi xem xét các vấn đề liên quan đến chủng tộc, bản sắc và sự công bằng.

Trong quá trình xử lý ngôn ngữ tự nhiên trong những năm gần đây, các mạng được tạo bằng kiến ​​trúc mạng thần kinh Transformer và khối dữ liệu ngày càng lớn đã đạt được điểm hiệu suất cao trong các điểm chuẩn như GLUE. BERT của Google và các dẫn xuất của BERT dẫn đầu, tiếp theo là các mạng như MT-DNN của Microsoft, Megatron của Nvidia và GPT-3 của OpenAI. Được giới thiệu vào tháng 3, GPT-XNUMX là mô hình ngôn ngữ lớn nhất cho đến nay. Một bài báo về hiệu suất của mô hình đã giành được một trong ba giải thưởng bài báo hay nhất được trao cho các nhà nghiên cứu tại NeurIPS năm nay.

Quy mô của các bộ dữ liệu khổng lồ khiến việc xem xét kỹ lưỡng nội dung của chúng trở nên khó khăn. Điều này dẫn đến các ví dụ lặp đi lặp lại về xu hướng thuật toán trả về kết quả sai lệch tục tĩu về người Hồi giáo, những người đồng tính luyến ái hoặc không phù hợp với nhận dạng giới tính dự kiến, những người khuyết tật, phụ nữ và người Da đen, trong số các nhóm nhân khẩu học khác.

Sự nguy hiểm của các tập dữ liệu lớn cũng được thể hiện trong lĩnh vực thị giác máy tính, bằng chứng là các nhà nghiên cứu của Đại học Stanford đã thông báo vào tháng 2019 năm XNUMX rằng họ sẽ xóa các nhãn và hình ảnh gây khó chịu khỏi ImageNet. Ngươi mâu StyleGAN, do Nvidia phát triển, cũng tạo ra kết quả sai lệch sau khi đào tạo trên một tập dữ liệu hình ảnh lớn. Và sau khi phát hiện ra các hình ảnh và nhãn phân biệt giới tính và phân biệt chủng tộc, những người tạo ra 80 Million Tiny Images xin lỗi và nhờ kỹ sư xóa và không sử dụng tài liệu nữa.

VentureBeat

Nhiệm vụ của VentureBeat là trở thành một thị trấn kỹ thuật số cho những người ra quyết định kỹ thuật có được kiến ​​thức về công nghệ chuyển đổi và giao dịch. Trang web của chúng tôi cung cấp thông tin cần thiết về công nghệ và chiến lược dữ liệu để hướng dẫn bạn khi bạn lãnh đạo tổ chức của mình. Chúng tôi mời bạn trở thành thành viên của cộng đồng của chúng tôi, để truy cập:

  • thông tin cập nhật về các chủ đề mà bạn quan tâm,
  • bản tin của chúng tôi
  • nội dung dẫn dắt tư tưởng được kiểm soát và giảm giá quyền truy cập vào các sự kiện được đánh giá cao của chúng tôi, chẳng hạn như Chuyển đổi
  • các tính năng mạng và hơn thế nữa.

Trở thành thành viên

Nguồn: https://vojibeat.com/2020/12/26/ai-research-survey-finds-machine-learning-needs-a-culture-change/

tại chỗ_img

Tin tức mới nhất

tại chỗ_img