CSAM được tìm thấy trong tập dữ liệu đào tạo trình tạo hình ảnh AI lớn

Một tập dữ liệu công khai khổng lồ dùng làm dữ liệu đào tạo cho các trình tạo hình ảnh AI phổ biến bao gồm Stable Diffusion đã được phát hiện có chứa hàng nghìn trường hợp tài liệu lạm dụng tình dục trẻ em (CSAM).

Trong một nghiên cứu được công bố ngày hôm nay, Đài quan sát Internet Stanford (SIO) cho biết họ đã nghiên cứu hơn 32 triệu điểm dữ liệu trong bộ dữ liệu LAION-5B và có thể xác thực bằng cách sử dụng công cụ PhotoDNA do Microsoft phát triển, 1,008 hình ảnh CSAM – một số được bao gồm nhiều lần. Các nhà nghiên cứu cho biết trong bài báo của họ rằng con số đó có thể là “một con số thấp đáng kể”.

LAION-5B không bao gồm chính hình ảnh mà thay vào đó là tập hợp siêu dữ liệu bao gồm hàm băm của mã nhận dạng hình ảnh, mô tả, dữ liệu ngôn ngữ, liệu nó có thể không an toàn hay không và URL trỏ đến hình ảnh. Một số ảnh CSAM được liên kết trong LAION-5B được tìm thấy được lưu trữ trên các trang web như Reddit, Twitter, Blogspot và WordPress, cũng như các trang web người lớn như XHamster và XVideos.

Để tìm các hình ảnh trong tập dữ liệu đáng thử nghiệm, SIO đã tập trung vào các hình ảnh được bộ phân loại an toàn của LAION gắn thẻ là “không an toàn”. Những hình ảnh đó được quét bằng PhotoDNA để phát hiện CSAM và các hình ảnh trùng khớp đã được gửi đến Trung tâm Bảo vệ Trẻ em Canada (C3P) để xác minh.

“Việc loại bỏ tài liệu nguồn đã xác định hiện đang được tiến hành khi các nhà nghiên cứu báo cáo URL hình ảnh cho Trung tâm Quốc gia về Trẻ em Mất tích và Bị bóc lột (NCMEC) ở Hoa Kỳ và C3P,” SIO nói.

LAION-5B đã được sử dụng để đào tạo trình tạo hình ảnh AI phổ biến Stable Diffusion, phiên bản 1.5 nổi tiếng ở một số nơi trên Internet nhờ khả năng tạo ra hình ảnh rõ ràng. Mặc dù không liên quan trực tiếp đến các trường hợp như bác sĩ tâm thần trẻ em sử dụng AI để tạo hình ảnh khiêu dâm đối với trẻ vị thành niên, đó là loại công nghệ được tạo ra sextortion deepfake và các tội phạm khác dễ dàng hơn.

Theo SIO, Stable Diffusion 1.5 vẫn phổ biến trên mạng để tạo ra những bức ảnh khiêu dâm sau “sự không hài lòng rộng rãi từ cộng đồng” với việc phát hành Stable Diffusion 2.0, bổ sung thêm các bộ lọc bổ sung để ngăn những hình ảnh không an toàn lọt vào tập dữ liệu huấn luyện.

Không rõ liệu AI ổn định, công ty đã phát triển Khuếch tán ổn định, có biết về sự hiện diện của CSAM tiềm năng trong các mô hình của mình do sử dụng LAION-5B hay không; công ty đã không trả lời các câu hỏi của chúng tôi.

Rất tiếc, họ đã làm điều đó một lần nữa

Mặc dù đây là lần đầu tiên dữ liệu đào tạo AI của tổ chức phi lợi nhuận LAION của Đức bị cáo buộc chứa nội dung khiêu dâm trẻ em, tổ chức này đã bị chỉ trích vì đã đưa nội dung nghi vấn vào dữ liệu đào tạo của mình trước đó.

Google, công ty đã sử dụng công cụ tiền thân LAION-2B có tên LAION-400M để đào tạo trình tạo Imagen AI của mình, đã quyết định không bao giờ phát hành công cụ này do một số lo ngại, bao gồm cả việc liệu dữ liệu đào tạo LAION có giúp họ xây dựng một mô hình sai lệch và có vấn đề hay không.

Theo nhóm Imagen, trình tạo đã cho thấy “khuynh hướng chung là tạo ra hình ảnh những người có tông màu da sáng hơn và … khắc họa các ngành nghề khác nhau để phù hợp với định kiến giới tính của phương Tây”. Việc lập mô hình những thứ khác ngoài con người không cải thiện được tình hình, khiến Imagen “mã hóa một loạt thành kiến văn hóa và xã hội khi tạo ra hình ảnh về các hoạt động, sự kiện và đồ vật”.

Bản thân cuộc kiểm tra LAION-400M “đã phát hiện ra nhiều nội dung không phù hợp, bao gồm hình ảnh khiêu dâm, những lời nói xấu phân biệt chủng tộc và những định kiến xã hội có hại”.

Một vài tháng sau khi Google quyết định không công khai Imagen, một nghệ sĩ phát hiện hình ảnh y tế từ một cuộc phẫu thuật mà cô đã trải qua vào năm 2013 hiện diện trong LAION-5B mà cô chưa bao giờ cho phép đưa vào.

LAION đã không trả lời các câu hỏi của chúng tôi về vấn đề này, nhưng người sáng lập Christoph Schuhmann đã nói với Bloomberg vào đầu năm nay rằng ông ấy không biết về bất kỳ CSAM nào có trong LAION-5B, đồng thời thừa nhận “anh ấy đã không xem xét kỹ dữ liệu”.

Trùng hợp hay không - nghiên cứu SIO không được đề cập đến - LAION đã chọn ngày hôm qua để giới thiệu kế hoạch cho “quy trình bảo trì thường xuyên”, bắt đầu ngay lập tức, để xóa “các liên kết trong bộ dữ liệu LAION vẫn trỏ đến nội dung đáng ngờ, có khả năng bất hợp pháp trên internet công cộng”.

Công ty cho biết: “LAION có chính sách không khoan nhượng đối với nội dung bất hợp pháp. “Các bộ dữ liệu công khai sẽ tạm thời bị gỡ xuống và sẽ quay trở lại sau khi lọc cập nhật.” LAION có kế hoạch trả lại bộ dữ liệu của mình cho công chúng vào nửa cuối tháng XNUMX. ®

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
nguồn: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/

Trí thông minh dữ liệu tạo

CSAM được tìm thấy trong tập dữ liệu đào tạo trình tạo hình ảnh AI lớn

Rất tiếc, họ đã làm điều đó một lần nữa

Total Active Hub hợp tác với Cleo để nâng cao công cụ phần thưởng bằng công nghệ chuỗi khối

BING CROSBY: GIỌNG NÓI VÀNG ĐỊNH HÌNH ÂM NHẠC MỸ VÀ ĐÁNH GIÁ TRÁI TIM TRÊN TOÀN THẾ GIỚI

Tin tức mới nhất

Nền tảng kết nối sọc và huy động vốn từ cộng đồng: Hướng dẫn kỹ thuật

Xu hướng biến đổi: AI sáng tạo và tương lai của doanh nghiệp

Xu hướng biến đổi: AI sáng tạo và tương lai của doanh nghiệp

Mandiri Capital Indonesia giới thiệu chương trình Xpon tại Money 20/20 Châu Á – Fintech Singapore

Các ngân hàng sử dụng đám mây, AI để đổi mới và khai thác các cơ hội hợp tác – Fintech Singapore

quán cà phê VC