Zephyrnet-logo

CSAM gevonden in grote trainingsdataset voor AI-beeldgeneratoren

Datum:

Er is ontdekt dat een enorme openbare dataset die diende als trainingsgegevens voor populaire AI-beeldgeneratoren, waaronder Stable Diffusion, duizenden gevallen van materiaal over seksueel misbruik van kinderen (CSAM) bevat.

In een studies vandaag gepubliceerd, zei de Stanford Internet Observatory (SIO) dat het meer dan 32 miljoen datapunten in de LAION-5B-dataset had bestudeerd en met behulp van de door Microsoft ontwikkelde tool PhotoDNA 1,008 CSAM-afbeeldingen kon valideren – waarvan sommige meerdere keren waren opgenomen. Dat aantal is waarschijnlijk “een aanzienlijke onderwaarde”, aldus de onderzoekers in hun artikel.

LAION-5B bevat niet de afbeeldingen zelf, maar is in plaats daarvan een verzameling metagegevens, waaronder een hash van de afbeeldingsidentificatie, een beschrijving, taalgegevens, of deze mogelijk onveilig is en een URL die naar de afbeelding verwijst. Een aantal van de CSAM-foto's die in LAION-5B zijn gevonden, zijn gehost op websites als Reddit, Twitter, Blogspot en WordPress, maar ook op websites voor volwassenen, zoals XHamster en XVideos.

Om afbeeldingen in de dataset te vinden die het testen waard waren, concentreerde SIO zich op afbeeldingen die door de veiligheidsclassificatie van LAION als ‘onveilig’ waren getagd. Die afbeeldingen werden gescand met PhotoDNA om CSAM te detecteren, en de overeenkomsten werden ter verificatie naar het Canadian Centre for Child Protection (C3P) gestuurd.

“Het verwijderen van het geïdentificeerde bronmateriaal is momenteel aan de gang omdat onderzoekers de afbeeldings-URL’s hebben gerapporteerd aan het National Center for Missing and Exploited Children (NCMEC) in de VS en de C3P”, aldus de SIO. zei.

LAION-5B werd gebruikt om de populaire AI-beeldgenerator Stable Diffusion te trainen, waarvan versie 1.5 in bepaalde hoeken van het internet bekend staat vanwege zijn vermogen om expliciete beelden te creëren. Hoewel het niet direct verband houdt met zaken als een kinderpsychiater het gebruik van AI om pornografische afbeeldingen te genereren van minderjarigen, het is dat soort technologie dat wordt gemaakt deepfake sextortion en andere misdaden gemakkelijker.

Volgens de SIO blijft Stable Diffusion 1.5 online populair voor het genereren van expliciete foto's na "wijdverbreide ontevredenheid binnen de gemeenschap" over de release van Stable Diffusion 2.0, waarin extra filters zijn toegevoegd om te voorkomen dat onveilige beelden in de trainingsdataset terechtkomen.

Het is onduidelijk of Stability AI, die Stable Diffusion ontwikkelde, op de hoogte was van de aanwezigheid van potentiële CSAM in zijn modellen vanwege het gebruik van LAION-5B; het bedrijf reageerde niet op onze vragen.

Oeps, ze hebben het weer gedaan

Hoewel het de eerste keer is dat de AI-trainingsgegevens van de Duitse non-profitorganisatie LAION worden beschuldigd van het herbergen van kinderporno, is de organisatie al eerder betrapt op het opnemen van twijfelachtige inhoud in haar trainingsgegevens.

Google, dat een LAION-2B-voorganger gebruikte, bekend als LAION-400M, om zijn Imagen AI-generator te trainen, besloot de tool nooit uit te brengen vanwege verschillende zorgen, waaronder de vraag of de LAION-trainingsgegevens hadden geholpen een bevooroordeeld en problematisch model op te bouwen.

Volgens het Imagen-team, toonde de generator “een algemene voorkeur voor het genereren van afbeeldingen van mensen met lichtere huidtinten en … het portretteren van verschillende beroepen om aan te sluiten bij westerse genderstereotypen.” Het modelleren van andere dingen dan mensen verbeterde de situatie niet, waardoor Imagen “een reeks sociale en culturele vooroordelen codeerde bij het genereren van afbeeldingen van activiteiten, gebeurtenissen en objecten.”

Een audit van LAION-400M zelf “bracht een breed scala aan ongepaste inhoud aan het licht, waaronder pornografische beelden, racistische opmerkingen en schadelijke sociale stereotypen.”

Een paar maanden nadat Google besloot het openbaar maken van Imagen, een kunstenaar, door te geven gevlekt medische beelden van een operatie die ze in 2013 onderging, aanwezig in LAION-5B, waarvoor ze nooit toestemming heeft gegeven om deze op te nemen.

LAION reageerde niet op onze vragen hierover, maar oprichter Christoph Schuhmann vertelde Bloomberg eerder dit jaar wel dat hij onbewust van enige CSAM aanwezig in LAION-5B, terwijl hij ook toegaf dat “hij de gegevens niet diepgaand had bestudeerd.”

Toevallig of niet – de SIO-studie wordt niet genoemd – LAION heeft er gisteren voor gekozen voorstellen plannen voor ‘reguliere onderhoudsprocedures’, die onmiddellijk beginnen, om ‘links in LAION-datasets te verwijderen die nog steeds verwijzen naar verdachte, mogelijk onwettige inhoud op het openbare internet’.

“LAION heeft een nultolerantiebeleid voor illegale inhoud”, aldus het bedrijf. “De openbare datasets worden tijdelijk verwijderd, om na updatefiltering weer terug te keren.” LAION is van plan zijn datasets in de tweede helft van januari terug te geven aan het publiek. ®

spot_img

Laatste intelligentie

spot_img