Logo Zephyrnet

Google khao khát có thêm dữ liệu để đào tạo AI của mình—Nhưng với cái giá nào? – Giải mã

Ngày:

Google đang nói rõ rằng họ có ý định khai thác nội dung của các nhà xuất bản web để nâng cao hệ thống trí tuệ nhân tạo của mình. Người khổng lồ về công nghệ và tìm kiếm đang đề xuất rằng các công ty phải chọn không tham gia—như họ hiện đang làm đối với việc lập chỉ mục của công cụ tìm kiếm—nếu họ không muốn tài liệu của mình bị loại bỏ.

Những người chỉ trích mô hình chọn không tham gia này nói rằng chính sách này ủng hộ luật bản quyền đặt trách nhiệm lên các thực thể đang tìm cách sử dụng tài liệu có bản quyền, thay vì chính những người nắm giữ bản quyền.

Kế hoạch của Google đã được tiết lộ trong bản đệ trình tham vấn của chính phủ Úc về việc điều chỉnh các ứng dụng AI có rủi ro cao. Trong khi Úc đang xem xét việc cấm một số trường hợp sử dụng AI có vấn đề như thông tin sai lệch và phân biệt đối xử, Google lập luận rằng các nhà phát triển AI cần quyền truy cập rộng rãi vào dữ liệu.

As báo cáo by The Guardian, Google đã nói với các nhà hoạch định chính sách Úc rằng “luật bản quyền nên cho phép sử dụng hợp lý và hợp lý nội dung có bản quyền” để đào tạo AI. Công ty đã chỉ ra trình thu thập nội dung được tiêu chuẩn hóa của mình có tên là robots.txt, cho phép các nhà xuất bản chỉ định các phần trên trang web của họ không cho trình thu thập dữ liệu web.

Google không cung cấp thông tin chi tiết về cách thức hoạt động của việc chọn không tham gia. trong một blog đăng bài, nó ám chỉ một cách mơ hồ đến “các tiêu chuẩn và giao thức” mới cho phép những người tạo web chọn mức độ tham gia AI của họ.

công ty của anh ấy đã vận động hành lang ở Úc từ tháng XNUMX đến nới lỏng các quy tắc bản quyền sau khi phát hành chatbot Bard AI tại quốc gia này. Tuy nhiên, Google không đơn độc trong tham vọng khai thác dữ liệu của mình. OpenAI, người tạo ra chatbot hàng đầu ChatGPT, nhằm mục đích mở rộng tập dữ liệu đào tạo của mình với trình thu thập dữ liệu web mới có tên GPTBot. Giống như Google, nó áp dụng mô hình chọn không tham gia yêu cầu nhà xuất bản thêm quy tắc “không cho phép” nếu họ không muốn nội dung bị loại bỏ.

Đây là một thông lệ tiêu chuẩn đối với nhiều công ty công nghệ lớn dựa vào AI (thuật toán học sâu và học máy) để lập bản đồ thị hiếu của người dùng và thúc đẩy nội dung cũng như quảng cáo phù hợp.

Việc thúc đẩy thêm dữ liệu này diễn ra khi mức độ phổ biến của AI đã bùng nổ. Khả năng của các hệ thống như ChatGPT và Google's Bard dựa vào việc nhập bộ dữ liệu văn bản, hình ảnh và video lớn. Theo OpenAI, “GPT-4 đã học hỏi từ nhiều nguồn dữ liệu được cấp phép, tạo và có sẵn công khai, có thể bao gồm thông tin cá nhân có sẵn công khai.”

Nhưng một số chuyên gia cho rằng việc quét web mà không được phép sẽ làm tăng các vấn đề về bản quyền và đạo đức. Các nhà xuất bản như News Corp. đã đàm phán với công ty AI, tìm kiếm khoản thanh toán cho việc sử dụng nội dung của họ. AFP vừa phát hành một mở thư về chính vấn đề này.

“AI sáng tạo và các mô hình ngôn ngữ lớn cũng thường được đào tạo bằng cách sử dụng nội dung phương tiện độc quyền mà các nhà xuất bản và những người khác đầu tư nhiều thời gian và nguồn lực để sản xuất,” bức thư viết. “Những hoạt động như vậy làm suy yếu các mô hình kinh doanh cốt lõi của ngành truyền thông, vốn dựa trên lượng độc giả và lượng người xem (chẳng hạn như đăng ký), cấp phép và quảng cáo.

“Ngoài việc vi phạm luật bản quyền, tác động dẫn đến là làm giảm đáng kể tính đa dạng của phương tiện truyền thông và làm suy yếu khả năng tài chính của các công ty để đầu tư vào việc đưa tin trên phương tiện truyền thông, tiếp tục làm giảm khả năng tiếp cận của công chúng với thông tin chất lượng cao và đáng tin cậy,” cơ quan truyền thông này cho biết thêm.

Cuộc tranh luận là hình ảnh thu nhỏ của sự căng thẳng giữa việc thúc đẩy AI thông qua truy cập dữ liệu không giới hạn với việc tôn trọng quyền sở hữu. Một mặt, càng tiêu thụ nhiều nội dung, các hệ thống này càng trở nên có khả năng hơn. Nhưng những công ty này cũng thu lợi nhuận từ công việc của người khác mà không chia sẻ lợi ích.

Đạt được sự cân bằng phù hợp sẽ không dễ dàng. Đề xuất của Google về cơ bản yêu cầu các nhà xuất bản “bàn giao công việc của bạn cho AI của chúng tôi hoặc thực hiện hành động để từ chối”. Đối với các nhà xuất bản nhỏ hơn với nguồn lực hoặc kiến ​​thức hạn chế, việc chọn không tham gia có thể là một thách thức.

Cuộc kiểm tra đạo đức AI của Úc tạo cơ hội để định hình tốt hơn cách thức các công nghệ này phát triển. Nhưng nếu diễn ngôn công khai nhường chỗ cho những gã khổng lồ công nghệ đói dữ liệu theo đuổi tư lợi, thì nó có thể thiết lập một hiện trạng nơi các sáng tạo bị hệ thống AI nuốt chửng trừ khi những người sáng tạo nhảy qua các vòng để ngăn chặn nó.

Luôn cập nhật tin tức về tiền điện tử, cập nhật hàng ngày trong hộp thư đến của bạn.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img