Zephyrnet-logo

AI Weekly: de uitdagingen van het maken van open source AI-trainingsdatasets

Datum:

In januari kwam AI-onderzoekslaboratorium OpenAI uit Plaat, een machine learning-systeem dat in staat is om afbeeldingen te maken die bij elk tekstbijschrift passen. Gegeven een prompt genereert Dall-E foto's voor een reeks concepten, waaronder katten, logo's en brillen.

De resultaten zijn indrukwekkend, maar het trainen van Dall-E vereiste het bouwen van een grootschalige dataset die OpenAI tot dusver niet openbaar heeft gemaakt. Er wordt gewerkt aan een open source-implementatie, maar volgens Connor Leahy, een van de datawetenschappers achter de inspanning, is de ontwikkeling tot stilstand gekomen vanwege de uitdagingen bij het samenstellen van een corpus dat zowel morele als wettelijke normen respecteert.

"Er zweven veel niet-legaal-om-te-scrape data rond die niet [fair use] is op platforms zoals sociale media en Instagram in de eerste plaats", zegt Leahy, die lid is van de vrijwilliger AI-onderzoek EleutherAI, vertelde VentureBeat. "Je zou dat gemakkelijk op grote schaal kunnen schrapen, maar dat zou in strijd zijn met de servicevoorwaarden, de toestemming van mensen schenden en waarschijnlijk illegale gegevens verzamelen, zowel vanwege auteursrechten als om andere redenen."

Het creëren van AI-trainingsdatasets op een privacybewarende, ethische manier blijft inderdaad een belangrijke blokkering voor onderzoekers in de AI-gemeenschap, met name voor degenen die gespecialiseerd zijn in computervisie. In januari 2019 bracht IBM een corpus ontworpen om vooringenomenheid te verminderen in algoritmen voor gezichtsherkenning die bijna een miljoen foto's van mensen van Flickr bevatten. Maar noch de fotografen, noch de onderwerpen van de foto's kregen van IBM de mededeling dat hun werk zou worden opgenomen. Afzonderlijk een eerdere versie van IMAGEnet, een dataset die wordt gebruikt om AI-systemen over de hele wereld te trainen, bleek foto's te bevatten van naakte kinderen, pornoactrices, universiteitsfeesten en meer - allemaal van het web geschraapt zonder de toestemming van die individuen.

"Er zijn echte nadelen die zijn ontstaan ​​door het informeel herbestemmen, open sourcen, verzamelen en schrapen van biometrische gegevens", zegt Liz O'Sullivan, medeoprichter en technologiedirecteur bij het Surveillance Technology Oversight Project, een non-profitorganisatie die procedeert en pleit voor privacy. . "[Ze] brengen mensen van kleur en mensen met een handicap in gevaar voor identiteitsverwisseling en politiegeweld."

Technieken die afhankelijk zijn van synthetische gegevens om modellen te trainen, kunnen in de eerste plaats de noodzaak verminderen om potentieel problematische datasets te creëren. Volgens Leahy is het in machine learning tot op zekere hoogte mogelijk om "compute voor data te ruilen", hoewel er gewoonlijk een minimale datasetgrootte nodig is om goede prestaties te leveren. Met andere woorden, simulatie en synthetische gegevens, zoals door AI gegenereerde foto's van mensen, kunnen de plaats innemen van echte foto's van internet.

"Je kunt oneindige compute niet ruilen voor oneindige data, maar compute is meer fungibel dan data," zei Leahy. "Ik verwacht wel dat voor niche-taken waar het verzamelen van gegevens erg moeilijk is, of waar rekenkracht overvloedig is, simulatie een belangrijke rol zal spelen."

O'Sullivan is sceptischer dat synthetische gegevens goed zullen generaliseren van laboratoriumomstandigheden naar de echte wereld, en wijst op bestaand onderzoek over het onderwerp. In een studie van afgelopen januari toonden onderzoekers van de Arizona State University aan dat wanneer een AI-systeem dat getraind was op een dataset van afbeeldingen van technische hoogleraren de opdracht kreeg om gezichten te creëren, 93% mannelijk en 99% blank was. Het systeem leek de bestaande vooroordelen van de dataset te hebben versterkt - 80% van de professoren was man en 76% was blank.

Aan de andere kant zeggen startups zoals Hazy en Mostly AI dat ze methoden hebben ontwikkeld om de vooroordelen van gegevens te beheersen op manieren die de schade daadwerkelijk verminderen. Een recente studie gepubliceerd door een groep Ph.D. kandidaten op Stanford beweren hetzelfde - de coauteurs zeggen dat hun techniek hen in staat stelt om bepaalde kenmerken als belangrijker te wegen om een ​​diverse reeks afbeeldingen te genereren voor training in computervisie.

Uiteindelijk waarschuwt O'Sullivan, zelfs waar synthetische gegevens een rol kunnen spelen, dat elke open source-dataset mensen in die set een groter risico kan opleveren. Het samenvoegen en publiceren van een trainingsdataset is een proces dat zorgvuldig moet worden uitgevoerd, zegt ze - of helemaal niet, wanneer dit tot schade kan leiden.

"Er zijn grote zorgen over hoe deze technologie de democratie en onze samenleving als geheel beïnvloedt", zei O'Sullivan.

Voor nieuws over AI stuur je nieuwstips naar Chari Johnson en Kyle Wiggers en AI-editor Seth Kolaner - en abonneer je op het AI Wekelijkse nieuwsbrief en bookmark ons ​​AI-kanaal, De machine.

Bedankt voor het lezen,

Kyle Wiggers

AI Personeel Schrijver

VentureBeat

De missie van VentureBeat is om een ​​digitaal stadsplein te zijn voor technische besluitvormers om kennis op te doen over transformatieve technologie en transacties. Onze site biedt essentiële informatie over datatechnologieën en strategieën om u te begeleiden bij het leiden van uw organisaties. We nodigen u uit om lid te worden van onze community, om toegang te krijgen tot:

  • up-to-date informatie over de onderwerpen die u interesseren
  • onze nieuwsbrieven
  • gated thought-leader content en toegang met korting tot onze gewaardeerde evenementen, zoals Transform
  • netwerkfuncties en meer

Word lid

Bron: https://venturebeat.com/2021/02/19/ai-weekly-the-challenges-of-creating-open-source-ai-training-datasets/

spot_img

Laatste intelligentie

spot_img