Logo Zephyrnet

CSAM được tìm thấy trong tập dữ liệu đào tạo trình tạo hình ảnh AI lớn

Ngày:

Một tập dữ liệu công khai khổng lồ dùng làm dữ liệu đào tạo cho các trình tạo hình ảnh AI phổ biến bao gồm Stable Diffusion đã được phát hiện có chứa hàng nghìn trường hợp tài liệu lạm dụng tình dục trẻ em (CSAM).

Trong một nghiên cứu được công bố ngày hôm nay, Đài quan sát Internet Stanford (SIO) cho biết họ đã nghiên cứu hơn 32 triệu điểm dữ liệu trong bộ dữ liệu LAION-5B và có thể xác thực bằng cách sử dụng công cụ PhotoDNA do Microsoft phát triển, 1,008 hình ảnh CSAM – một số được bao gồm nhiều lần. Các nhà nghiên cứu cho biết trong bài báo của họ rằng con số đó có thể là “một con số thấp đáng kể”.

LAION-5B không bao gồm chính hình ảnh mà thay vào đó là tập hợp siêu dữ liệu bao gồm hàm băm của mã nhận dạng hình ảnh, mô tả, dữ liệu ngôn ngữ, liệu nó có thể không an toàn hay không và URL trỏ đến hình ảnh. Một số ảnh CSAM được liên kết trong LAION-5B được tìm thấy được lưu trữ trên các trang web như Reddit, Twitter, Blogspot và WordPress, cũng như các trang web người lớn như XHamster và XVideos.

Để tìm các hình ảnh trong tập dữ liệu đáng thử nghiệm, SIO đã tập trung vào các hình ảnh được bộ phân loại an toàn của LAION gắn thẻ là “không an toàn”. Những hình ảnh đó được quét bằng PhotoDNA để phát hiện CSAM và các hình ảnh trùng khớp đã được gửi đến Trung tâm Bảo vệ Trẻ em Canada (C3P) để xác minh.

“Việc loại bỏ tài liệu nguồn đã xác định hiện đang được tiến hành khi các nhà nghiên cứu báo cáo URL hình ảnh cho Trung tâm Quốc gia về Trẻ em Mất tích và Bị bóc lột (NCMEC) ở Hoa Kỳ và C3P,” SIO nói.

LAION-5B đã được sử dụng để đào tạo trình tạo hình ảnh AI phổ biến Stable Diffusion, phiên bản 1.5 nổi tiếng ở một số nơi trên Internet nhờ khả năng tạo ra hình ảnh rõ ràng. Mặc dù không liên quan trực tiếp đến các trường hợp như bác sĩ tâm thần trẻ em sử dụng AI để tạo hình ảnh khiêu dâm đối với trẻ vị thành niên, đó là loại công nghệ được tạo ra sextortion deepfake và các tội phạm khác dễ dàng hơn.

Theo SIO, Stable Diffusion 1.5 vẫn phổ biến trên mạng để tạo ra những bức ảnh khiêu dâm sau “sự không hài lòng rộng rãi từ cộng đồng” với việc phát hành Stable Diffusion 2.0, bổ sung thêm các bộ lọc bổ sung để ngăn những hình ảnh không an toàn lọt vào tập dữ liệu huấn luyện.

Không rõ liệu AI ổn định, công ty đã phát triển Khuếch tán ổn định, có biết về sự hiện diện của CSAM tiềm năng trong các mô hình của mình do sử dụng LAION-5B hay không; công ty đã không trả lời các câu hỏi của chúng tôi.

Rất tiếc, họ đã làm điều đó một lần nữa

Mặc dù đây là lần đầu tiên dữ liệu đào tạo AI của tổ chức phi lợi nhuận LAION của Đức bị cáo buộc chứa nội dung khiêu dâm trẻ em, tổ chức này đã bị chỉ trích vì đã đưa nội dung nghi vấn vào dữ liệu đào tạo của mình trước đó.

Google, công ty đã sử dụng công cụ tiền thân LAION-2B có tên LAION-400M để đào tạo trình tạo Imagen AI của mình, đã quyết định không bao giờ phát hành công cụ này do một số lo ngại, bao gồm cả việc liệu dữ liệu đào tạo LAION có giúp họ xây dựng một mô hình sai lệch và có vấn đề hay không.

Theo nhóm Imagen, trình tạo đã cho thấy “khuynh hướng chung là tạo ra hình ảnh những người có tông màu da sáng hơn và …  khắc họa các ngành nghề khác nhau để phù hợp với định kiến ​​​​giới tính của phương Tây”. Việc lập mô hình những thứ khác ngoài con người không cải thiện được tình hình, khiến Imagen “mã hóa một loạt thành kiến ​​văn hóa và xã hội khi tạo ra hình ảnh về các hoạt động, sự kiện và đồ vật”.

Bản thân cuộc kiểm tra LAION-400M “đã phát hiện ra nhiều nội dung không phù hợp, bao gồm hình ảnh khiêu dâm, những lời nói xấu phân biệt chủng tộc và những định kiến ​​​​xã hội có hại”.

Một vài tháng sau khi Google quyết định không công khai Imagen, một nghệ sĩ phát hiện hình ảnh y tế từ một cuộc phẫu thuật mà cô đã trải qua vào năm 2013 hiện diện trong LAION-5B mà cô chưa bao giờ cho phép đưa vào.

LAION đã không trả lời các câu hỏi của chúng tôi về vấn đề này, nhưng người sáng lập Christoph Schuhmann đã nói với Bloomberg vào đầu năm nay rằng ông ấy không biết về bất kỳ CSAM nào có trong LAION-5B, đồng thời thừa nhận “anh ấy đã không xem xét kỹ dữ liệu”.

Trùng hợp hay không - nghiên cứu SIO không được đề cập đến - LAION đã chọn ngày hôm qua để giới thiệu kế hoạch cho “quy trình bảo trì thường xuyên”, bắt đầu ngay lập tức, để xóa “các liên kết trong bộ dữ liệu LAION vẫn trỏ đến nội dung đáng ngờ, có khả năng bất hợp pháp trên internet công cộng”.

Công ty cho biết: “LAION có chính sách không khoan nhượng đối với nội dung bất hợp pháp. “Các bộ dữ liệu công khai sẽ tạm thời bị gỡ xuống và sẽ quay trở lại sau khi lọc cập nhật.” LAION có kế hoạch trả lại bộ dữ liệu của mình cho công chúng vào nửa cuối tháng XNUMX. ®

tại chỗ_img

Tin tức mới nhất

tại chỗ_img