제퍼넷 로고

대규모 AI 이미지 생성기 훈련 데이터 세트에서 CSAM 발견

시간

Stable Diffusion을 포함한 인기 있는 AI 이미지 생성기의 훈련 데이터로 사용된 대규모 공개 데이터세트에 수천 개의 CSAM(아동 성적 학대 자료)이 포함된 것으로 밝혀졌습니다.

안에 공부 오늘 발표된 스탠포드 인터넷 관측소(SIO)는 LAION-32B 데이터 세트에서 5만 개가 넘는 데이터 포인트를 조사했으며 Microsoft가 개발한 도구인 PhotoDNA를 사용하여 1,008개의 CSAM 이미지(일부는 여러 번 포함됨)를 검증할 수 있었다고 밝혔습니다. 연구원들은 논문에서 그 숫자가 "상당히 과소평가"되었을 가능성이 있다고 밝혔습니다.

LAION-5B는 이미지 자체를 포함하지 않으며 대신 이미지 식별자의 해시, 설명, 언어 데이터, 안전하지 않은지 여부, 이미지를 가리키는 URL을 포함하는 메타데이터 모음입니다. LAION-5B에 연결된 것으로 발견된 다수의 CSAM 사진은 Reddit, Twitter, Blogspot 및 WordPress와 같은 웹사이트는 물론 XHamster 및 XVideos와 같은 성인 웹사이트에서도 호스팅되는 것으로 나타났습니다.

테스트할 가치가 있는 데이터 세트에서 이미지를 찾기 위해 SIO는 LAION의 안전 분류기에 의해 "안전하지 않음"으로 태그된 이미지에 집중했습니다. CSAM을 탐지하기 위해 해당 이미지를 PhotoDNA로 스캔했으며 일치 여부를 확인하기 위해 캐나다 아동 보호 센터(C3P)로 보냈습니다.

SIO는 “연구자들이 미국 국립실종착취아동센터(NCMEC)와 C3P에 이미지 URL을 신고해 현재 확인된 원본 자료 삭제 작업이 진행 중”이라고 밝혔다. 말했다.

LAION-5B는 인기 있는 AI 이미지 생성기 Stable Diffusion을 훈련하는 데 사용되었습니다. 버전 1.5는 노골적인 이미지를 생성하는 기능으로 인터넷의 특정 영역에서 잘 알려져 있습니다. 아동정신과 의사처럼 사건과 직접적인 연관은 없지만 AI를 이용해 포르노 이미지 생성 미성년자들이 만든 그런 기술이군요 딥페이크 섹스토션 그리고 다른 범죄도 쉬워집니다.

SIO에 따르면 Stable Diffusion 1.5는 안전하지 않은 이미지가 교육 데이터 세트에 들어가는 것을 방지하기 위해 추가 필터를 추가한 Stable Diffusion 2.0의 출시와 함께 "커뮤니티의 광범위한 불만" 이후에도 노골적인 사진을 생성하기 위해 온라인에서 여전히 인기가 높습니다.

Stable Diffusion을 개발한 Stability AI가 LAION-5B 사용으로 인해 모델에 잠재적인 CSAM이 존재한다는 사실을 알고 있었는지는 확실하지 않습니다. 회사는 우리 질문에 응답하지 않았습니다.

이런, 그 사람들이 또 그랬어

독일 비영리 LAION의 AI 훈련 데이터가 아동 포르노를 은닉했다는 비난을 받은 것은 이번이 처음이지만, 이 조직은 이전에도 훈련 데이터에 의심스러운 콘텐츠를 포함했다는 비난을 받았습니다.

Imagen AI 생성기를 교육하기 위해 LAION-2M으로 알려진 LAION-400B 이전 버전을 사용한 Google은 LAION 교육 데이터가 편향되고 문제가 있는 모델을 구축하는 데 도움이 되었는지 여부를 포함한 여러 가지 우려로 인해 도구를 출시하지 않기로 결정했습니다.

Imagen 팀에 따르면, 생성기는 "밝은 피부색을 가진 사람들의 이미지를 생성하고 ... 서구의 성별 고정관념에 맞춰 다양한 직업을 묘사하는 것에 대한 전반적인 편견"을 보여주었습니다. 인간 이외의 다른 것을 모델링해도 상황은 개선되지 않았으며 Imagen은 "활동, 이벤트 및 사물의 이미지를 생성할 때 다양한 사회적, 문화적 편견을 인코딩"하게 되었습니다.

LAION-400M 자체에 대한 감사를 통해 "외설적인 이미지, 인종차별적 비방, 유해한 사회적 고정관념을 포함한 광범위한 부적절한 콘텐츠가 발견되었습니다."

Google이 Imagen을 공개하기로 결정한 지 몇 달 후, 더럽혀진 그녀가 2013년에 받은 수술의 의료 이미지는 LAION-5B에 있는데, 그녀는 포함하는 것을 결코 허락하지 않았습니다.

LAION은 이 문제에 대한 우리의 질문에 응답하지 않았지만 창립자 Christoph Schuhmann은 올해 초 Bloomberg에 자신이 알지 못하는 LAION-5B에 존재하는 모든 CSAM에 대해 "그는 데이터를 깊이 있게 검토하지 않았다"고 인정했습니다.

우연인지 아닌지 – SIO 연구는 언급되지 않았습니다 – LAION은 어제 소개 즉시 시작되는 "정기적인 유지 관리 절차"를 통해 "여전히 공용 인터넷에서 의심스럽고 잠재적으로 불법적인 콘텐츠를 가리키는 LAION 데이터 세트의 링크"를 제거할 계획입니다.

라온 측은 “불법 콘텐츠에 대해 무관용 정책을 취하고 있다”고 밝혔다. “공개 데이터 세트는 업데이트 필터링 후 다시 돌아올 수 있도록 일시적으로 중단됩니다.” LAION은 XNUMX월 하반기에 데이터 세트를 대중에게 공개할 계획입니다. ®

spot_img

최신 인텔리전스

spot_img