Zephyrnet-logo

Het blijkt dat mensen AI-systemen op een dwaalspoor brengen, omdat we het niet eens kunnen worden over etikettering

Datum:

Topdatasets die worden gebruikt om AI-modellen te trainen en te benchmarken hoe de technologie zich in de loop van de tijd heeft ontwikkeld, zitten vol met etiketteringsfouten, blijkt uit een onderzoek.

Gegevens zijn een essentiële hulpbron om machines te leren hoe ze specifieke taken moeten uitvoeren, of het nu gaat om het identificeren van verschillende plantensoorten of het automatisch genereren van bijschriften. De meeste neurale netwerken zijn met de paplepel ingegoten met veel en veel geannoteerde monsters voordat ze algemene patronen in gegevens kunnen leren.

Maar deze labels zijn niet altijd correct; het trainen van machines met behulp van foutgevoelige datasets kan hun prestaties of nauwkeurigheid verminderen. In de bovengenoemde studie, geleid door MIT, doorzochten analisten tien populaire datasets die meer dan 100,000 keer in academische papers zijn geciteerd en ontdekten dat gemiddeld 3.4 procent van de steekproeven verkeerd is gelabeld.

De datasets die ze bekeken, variëren van foto's in ImageNet tot geluiden in AudioSet, recensies van Amazon tot schetsen in QuickDraw. Voorbeelden van enkele van de fouten gecompileerd door de onderzoekers laten zien dat het in sommige gevallen een duidelijke blunder is, zoals een tekening van een gloeilamp met het label een krokodil, in andere gevallen is het echter niet altijd duidelijk. Moet een afbeelding van een emmer honkballen worden bestempeld als 'honkballen' of 'emmer'?

Schokkende inhoud onthuld

In de 1TB ImageNet-dataset die wordt gebruikt om 's werelds AI te trainen: naakte kinderen, dronken studentenfeesten, pornosterren en meer

LEES VERDER

Het annoteren van elk monster is arbeidsintensief werk. Dit werk wordt vaak uitbesteed aan diensten als Amazon Mechanical Turk, waar werknemers de vierkantswortel van graszoden allemaal krijgen om de gegevens stuk voor stuk te doorzoeken en afbeeldingen en audio te labelen om in AI-systemen te worden ingevoerd. Dit proces versterkt vooroordelen en fouten, zoals Vice documenteerde hier.

Werknemers worden onder druk gezet om in te stemmen met de status-quo als ze betaald willen worden: als veel van hen een emmer honkballen bestempelen als een 'emmer', en u besluit dat het 'honkballen' zijn, wordt u mogelijk helemaal niet betaald als het platform cijfers dat je het bij het verkeerde eind hebt of opzettelijk probeert de etikettering te verknoeien. Dat betekent dat werknemers het meest populaire label kiezen om te voorkomen dat ze eruit zien alsof ze een fout hebben gemaakt. Het is in hun belang om vast te houden aan het verhaal en niet als een pijnlijke duim uit te steken. Dat betekent fouten, of erger nog, raciale vooroordelen en dergelijke, sneeuwbal in deze datasets.

De foutpercentages variëren tussen de datasets. In IMAGEnet, de meest populaire dataset die wordt gebruikt om modellen te trainen voor objectherkenning, sluipt de snelheid omhoog zes procent​ Aangezien het ongeveer 15 miljoen foto's bevat, betekent dit dat honderdduizenden labels verkeerd zijn. Sommige klassen afbeeldingen worden meer beïnvloed dan andere, zo wordt 'kameleon' vaak verward met 'groene hagedis' en vice versa.

Er zijn nog andere domino-effecten: neurale netten kunnen leren om functies binnen gegevens ten onrechte te associëren met bepaalde labels. Als bijvoorbeeld veel afbeeldingen van de zee boten lijken te bevatten en ze steeds als 'zee' worden bestempeld, kan een machine in de war raken en is de kans groter dat boten ten onrechte als zeeën worden herkend.

Problemen doen zich niet alleen voor bij het vergelijken van de prestaties van modellen met behulp van deze luidruchtige datasets. De risico's zijn groter als deze systemen in de echte wereld worden ingezet, legt Curtis Northcutt, co-hoofdauteur van de stud en een PhD-student aan MIT, en ook mede-oprichter en CTO van ChipBrain, een machine-learning hardware startup, uit aan Het register.

"Stel je een zelfrijdende auto voor die een AI-model gebruikt om stuurbeslissingen op kruispunten te nemen", zei hij. “Wat zou er gebeuren als een zelfrijdende auto wordt getraind op een dataset met frequente labelfouten die een driewegkruising verkeerd labelen als een vierrichtingskruising? Het antwoord: het kan leren om van de weg af te rijden wanneer het kruispunten met drie richtingen tegenkomt.

Wat zou er gebeuren als een zelfrijdende auto wordt getraind op een dataset met frequente labelfouten die een driewegkruising verkeerd labelen als een vierrichtingskruising?

“Misschien is een van je AI-zelfrijdende modellen eigenlijk beter bestand tegen trainingsgeluid, zodat hij minder van de weg afrijdt. U zult dit nooit weten als uw testset te luidruchtig is, omdat de labels van uw testset niet overeenkomen met de werkelijkheid. Dit betekent dat je niet goed kunt inschatten welke van je AI-modellen met automatische piloot het beste rijdt - in ieder geval niet voordat je de auto in de echte wereld inzet, waar hij van de weg zou kunnen rijden. "

Toen het team dat aan het onderzoek werkte, enkele convolutionele neurale netwerken trainde op delen van ImageNet die van fouten waren verwijderd, verbeterden hun prestaties. De techneuten zijn van mening dat ontwikkelaars twee keer moeten nadenken over het trainen van grote modellen op datasets met hoge foutenpercentages, en ze adviseren om eerst de samples te doorzoeken. Cleanlab, de software die het team heeft ontwikkeld en gebruikt om onjuiste en inconsistente labels te identificeren, is te vinden op GitHub.

"Cleanlab is een open-source python-pakket voor machine learning met luidruchtige labels", aldus Northcutt. “Cleanlab werkt door alle theorie en algoritmen te implementeren in het subveld van machine learning, zelfverzekerd leren genoemd, uitgevonden bij MIT. Ik heb cleanlab gebouwd om andere onderzoekers in staat te stellen zelfverzekerd leren te gebruiken - meestal met slechts een paar regels code - maar wat nog belangrijker is, om de vooruitgang van de wetenschap in machine learning te bevorderen met luidruchtige labels en om een ​​raamwerk te bieden voor nieuwe onderzoekers om gemakkelijk aan de slag te gaan. "

En houd er rekening mee dat als de labels van een dataset bijzonder slordig zijn, het trainen van grote complexe neurale netwerken misschien niet altijd zo voordelig is. Grotere modellen zijn over het algemeen meer geschikt voor gegevens dan kleinere.

“Soms werkt het gebruik van kleinere modellen voor zeer luidruchtige datasets. Maar in plaats van altijd standaard kleinere modellen te gebruiken voor zeer luidruchtige datasets, denk ik dat het belangrijkste is dat ingenieurs voor machine learning hun testsets moeten opschonen en corrigeren voordat ze hun modellen benchmarken, ”concludeerde Northcutt. ​

Coinsmart. Beste Bitcoin-beurs in Europa
Bron: https://go.theregister.com/feed/www.theregister.com/2021/04/01/mit_ai_accuracy/

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?