Logo Zephyrnet

Tại sao vụ kiện về bản quyền AI của New York Times sẽ khó bảo vệ

Ngày:

Thời báo New York' (NYT) tố tụng chống lại OpenAI và Microsoft đã mở ra một biên giới mới trong những thách thức pháp lý đang diễn ra do việc sử dụng dữ liệu có bản quyền để “đào tạo” hoặc cải thiện AI tổng quát.

Đã có nhiều vụ kiện chống lại các công ty AI, trong đó có một vụ kiện do Getty Images chống lại sự ổn định AI, công cụ tạo ra trình tạo văn bản thành hình ảnh trực tuyến Stable Diffusion. Các tác giả George RR Martin và John Grisham cũng đã khởi kiện chủ sở hữu ChatGPT OpenAI về các khiếu nại về bản quyền. Nhưng trường hợp của NYT không “giống như vậy” vì nó đưa ra những lập luận mới thú vị.

Hoạt động pháp lý tập trung vào giá trị của dữ liệu huấn luyện và một câu hỏi mới liên quan đến thiệt hại danh tiếng. Nó là sự kết hợp mạnh mẽ giữa nhãn hiệu và bản quyền và là sự kết hợp có thể kiểm tra các biện pháp bảo vệ sử dụng hợp lý thường dựa vào.

Không còn nghi ngờ gì nữa, nó sẽ được theo dõi chặt chẽ bởi các tổ chức truyền thông đang tìm cách thách thức cách tiếp cận thông thường “hãy xin sự tha thứ chứ không phải xin phép” đối với dữ liệu đào tạo. Dữ liệu đào tạo được sử dụng để cải thiện hiệu suất của hệ thống AI và thường bao gồm thông tin trong thế giới thực, thường được lấy từ internet.

Vụ kiện cũng đưa ra một lập luận mới—không được đưa ra bởi các vụ kiện tương tự khác—liên quan đến một thứ gọi là “ảo giác,” trong đó hệ thống AI tạo ra thông tin sai lệch hoặc gây hiểu nhầm nhưng lại trình bày nó như sự thật. Lập luận này trên thực tế có thể là một trong những lập luận mạnh mẽ nhất trong vụ án.

Trường hợp của NYT nói riêng đưa ra ba quan điểm thú vị về cách tiếp cận thông thường. Đầu tiên, nhờ danh tiếng về tin tức và thông tin đáng tin cậy, nội dung NYT đã nâng cao giá trị và mức độ được mong muốn làm dữ liệu đào tạo để sử dụng trong AI.

Thứ hai, do tường phí của NYT, việc sao chép các bài báo theo yêu cầu sẽ gây tổn hại về mặt thương mại. Thứ ba, đó ChatGPT ảo giác đang gây tổn hại đến danh tiếng của tờ New York Times thông qua việc ghi nhận sai sự thật.

Đây không chỉ là một tranh chấp bản quyền AI mang tính tổng quát khác. Lập luận đầu tiên được NYT đưa ra là dữ liệu đào tạo mà OpenAI sử dụng được bảo vệ bản quyền và vì vậy họ cho rằng giai đoạn đào tạo của ChatGPT đã vi phạm bản quyền. Chúng tôi đã thấy kiểu lập luận này chạy trước trong các tranh chấp khác.

Sử dụng hợp lý?

Thách thức đối với kiểu tấn công này là lá chắn sử dụng hợp lý. Ở Hoa Kỳ, sử dụng hợp lý là một học thuyết trong luật cho phép sử dụng tài liệu có bản quyền trong một số trường hợp nhất định, chẳng hạn như trong báo cáo tin tức, tác phẩm học thuật và bình luận.

Phản hồi của OpenAI cho đến nay vẫn rất thận trọng, nhưng nguyên lý chính trong tuyên bố do công ty đưa ra là việc sử dụng dữ liệu trực tuyến của họ thực sự tuân theo nguyên tắc “sử dụng hợp pháp”.

Dự đoán trước một số khó khăn mà việc bảo vệ quyền sử dụng hợp lý như vậy có thể gây ra, NYT đã áp dụng một góc độ hơi khác. Đặc biệt, nó tìm cách phân biệt dữ liệu của nó với dữ liệu tiêu chuẩn. NYT dự định sử dụng những gì họ tuyên bố là tính chính xác, đáng tin cậy và uy tín trong báo cáo của mình. Nó tuyên bố rằng điều này tạo ra một tập dữ liệu đặc biệt mong muốn.

Nó lập luận rằng với tư cách là một nguồn có uy tín và đáng tin cậy, các bài viết của nó có trọng lượng và độ tin cậy cao hơn trong việc đào tạo AI tổng quát và là một phần của tập hợp con dữ liệu được tăng thêm trọng số trong quá trình đào tạo đó.

Nó lập luận rằng bằng cách sao chép phần lớn các bài viết theo lời nhắc, ChatGPT có thể từ chối NYT, được tường phí, khách truy cập và doanh thu mà lẽ ra nó sẽ nhận được. Việc giới thiệu một số khía cạnh của cạnh tranh thương mại và lợi thế thương mại dường như nhằm mục đích chống lại sự bảo vệ sử dụng hợp lý thông thường đối với những tuyên bố này.

Sẽ rất thú vị để xem liệu việc khẳng định trọng số đặc biệt trong dữ liệu huấn luyện có tác động hay không. Nếu đúng như vậy, nó sẽ mở đường cho các tổ chức truyền thông khác thách thức việc sử dụng báo cáo của họ trong dữ liệu đào tạo mà không được phép.

Yếu tố cuối cùng trong tuyên bố của NYT thể hiện một góc độ mới đối với thách thức. Nó cho thấy rằng thương hiệu NYT đang bị thiệt hại thông qua tài liệu mà ChatGPT sản xuất. Mặc dù gần như được trình bày như một phần sau trong đơn khiếu nại, nhưng đây có thể là tuyên bố gây ra khó khăn nhất cho OpenAI.

Đây là lập luận liên quan đến ảo giác AI. NYT lập luận rằng điều này phức tạp vì ChatGPT trình bày thông tin đến từ NYT.

Tờ báo còn gợi ý thêm rằng người tiêu dùng có thể hành động dựa trên bản tóm tắt do ChatGPT đưa ra, cho rằng thông tin đến từ NYT và đáng tin cậy. Thiệt hại về danh tiếng là do tờ báo không kiểm soát được những gì ChatGPT sản xuất.

Đây là một thử thách thú vị để kết thúc. Ảo giác là một vấn đề đã được công nhận với các phản hồi do AI tạo ra và NYT đang lập luận rằng tác hại về mặt danh tiếng có thể không dễ khắc phục.

Khiếu nại của NYT mở ra một số dòng tấn công mới nhằm chuyển trọng tâm từ bản quyền sang cách ChatGPT trình bày dữ liệu có bản quyền cho người dùng và giá trị của dữ liệu đó đối với tờ báo. OpenAI khó bảo vệ điều này hơn nhiều.

Trường hợp này sẽ được các nhà xuất bản truyền thông khác theo dõi chặt chẽ, đặc biệt là những nhà xuất bản đứng sau tường phí và đặc biệt quan tâm đến cách nó tương tác với biện pháp bảo vệ quyền sử dụng hợp lý thông thường.

Nếu tập dữ liệu NYT được công nhận là có “giá trị nâng cao” mà nó tuyên bố, thì nó có thể mở đường cho việc kiếm tiền từ tập dữ liệu đó trong việc đào tạo AI thay vì cách tiếp cận “tha thứ, không cho phép” phổ biến hiện nay.

Bài viết này được tái bản từ Conversation theo giấy phép Creative Commons. Đọc ban đầu bài viết.

Ảnh: Tầm nhìn tuyệt đối / Unsplash 

tại chỗ_img

Tin tức mới nhất

tại chỗ_img