Logo Zéphyrnet

CSAM trouvé dans un grand ensemble de données de formation de générateur d'images IA

Date :

Un ensemble de données publiques massives qui a servi de données de formation pour les générateurs d'images d'IA populaires, notamment Stable Diffusion, s'est avéré contenir des milliers d'instances de matériel d'abus sexuel sur des enfants (CSAM).

Dans un étude Publié aujourd'hui, le Stanford Internet Observatory (SIO) a déclaré avoir examiné plus de 32 millions de points de données dans l'ensemble de données LAION-5B et avoir pu valider, à l'aide de l'outil développé par Microsoft PhotoDNA, 1,008 XNUMX images CSAM – certaines incluses plusieurs fois. Ce nombre est probablement « un sous-estimation importante », ont déclaré les chercheurs dans leur article.

LAION-5B n'inclut pas les images elles-mêmes, mais constitue plutôt une collection de métadonnées comprenant un hachage de l'identifiant de l'image, une description, des données de langue, si elle peut être dangereuse et une URL pointant vers l'image. Un certain nombre de photos CSAM trouvées liées dans LAION-5B ont été trouvées hébergées sur des sites Web comme Reddit, Twitter, Blogspot et WordPress, ainsi que sur des sites Web pour adultes comme XHamster et XVideos.

Pour trouver des images dans l’ensemble de données méritant d’être testées, SIO s’est concentré sur les images marquées par le classificateur de sécurité de LAION comme « dangereuses ». Ces images ont été numérisées avec PhotoDNA pour détecter les CSAM, et les correspondances ont été envoyées au Centre canadien de protection de l'enfance (C3P) pour être vérifiées.

"La suppression du matériel source identifié est actuellement en cours alors que les chercheurs ont signalé les URL des images au Centre national pour les enfants disparus et exploités (NCMEC) aux États-Unis et au C3P", a déclaré le SIO. a affirmé Valérie Plante..

LAION-5B a été utilisé pour former le populaire générateur d’images IA Stable Diffusion, dont la version 1.5 est bien connue dans certains coins d’Internet pour sa capacité à créer des images explicites. Bien qu'il ne soit pas directement lié à des cas comme celui d'un pédopsychiatre utiliser l'IA pour générer des images pornographiques des mineurs, c'est ce genre de technologie qui est faite sextorsion deepfake et d'autres crimes plus faciles.

Selon le SIO, Stable Diffusion 1.5 reste populaire en ligne pour générer des photos explicites après un « mécontentement généralisé de la communauté » avec la sortie de Stable Diffusion 2.0, qui a ajouté des filtres supplémentaires pour empêcher les images dangereuses de se glisser dans l'ensemble de données d'entraînement.

On ne sait pas si Stability AI, qui a développé Stable Diffusion, était au courant de la présence potentielle de CSAM dans ses modèles en raison de l'utilisation de LAION-5B ; l'entreprise n'a pas répondu à nos questions.

Oups, ils ont encore recommencé

Bien que ce soit la première fois que les données de formation à l’IA de l’association allemande à but non lucratif LAION sont accusées d’héberger de la pédopornographie, l’organisation a déjà été critiquée pour avoir inclus du contenu douteux dans ses données de formation auparavant.

Google, qui a utilisé un prédécesseur de LAION-2B connu sous le nom de LAION-400M pour former son générateur Imagen AI, a décidé de ne jamais publier l'outil en raison de plusieurs préoccupations, notamment si les données de formation LAION l'avaient aidé à construire un modèle biaisé et problématique.

Selon l'équipe Imagen, le générateur a montré « un parti pris général en faveur de la génération d’images de personnes à la peau plus claire et… dépeindre différentes professions pour s’aligner sur les stéréotypes de genre occidentaux ». La modélisation d’objets autres que les humains n’a pas amélioré la situation, ce qui a amené Imagen à « coder toute une série de préjugés sociaux et culturels lors de la génération d’images d’activités, d’événements et d’objets ».

Un audit du LAION-400M lui-même « a révélé un large éventail de contenus inappropriés, notamment des images pornographiques, des insultes racistes et des stéréotypes sociaux préjudiciables ».

Quelques mois après que Google ait décidé de ne plus rendre public Imagen, un artiste tacheté des images médicales d'une opération chirurgicale qu'elle a subie en 2013 sont présentes dans LAION-5B, qu'elle n'a jamais donné la permission d'inclure.

LAION n'a pas répondu à nos questions à ce sujet, mais son fondateur Christoph Schuhmann a déclaré à Bloomberg plus tôt cette année qu'il était ignorant de tout CSAM présent dans LAION-5B, tout en admettant « qu’il n’a pas examiné les données en profondeur ».

Coïncidence ou non – l’étude SIO n’est pas évoquée – LAION a choisi hier de introduire des plans de « procédures de maintenance régulières », commençant immédiatement, pour supprimer « les liens dans les ensembles de données LAION qui pointent encore vers des contenus suspects et potentiellement illégaux sur l’Internet public ».

"LAION a une politique de tolérance zéro pour les contenus illégaux", a déclaré la société. "Les ensembles de données publics seront temporairement supprimés, pour revenir après le filtrage de la mise à jour." LAION prévoit de rendre ses ensembles de données au public dans la seconde quinzaine de janvier. ®

spot_img

Dernières informations

spot_img