Zephyrnet-logo

AI-compromissen: een evenwicht tussen krachtige modellen en mogelijke vooroordelen

Datum:

Naarmate ontwikkelaars nieuwe AI-tools ontgrendelen, wordt het risico op het bestendigen van schadelijke vooroordelen steeds groter - vooral op de hielen van een jaar zoals 2020, die veel van onze sociale en culturele normen, waarop AI-algoritmen al lang zijn getraind, opnieuw uitgevonden.

Er ontstaan ​​een handvol fundamentele modellen die afhankelijk zijn van een groot aantal trainingsgegevens waardoor ze inherent krachtig zijn, maar het is niet zonder risico op schadelijke vooroordelen - en dat feit moeten we collectief erkennen.

Erkenning op zich is eenvoudig. Begrijpen is veel moeilijker, net als het mitigeren van toekomstige risico's. Dat wil zeggen dat we eerst stappen moeten ondernemen om ervoor te zorgen dat we de wortels van deze vooroordelen begrijpen in een poging om de risico's van het ontwikkelen van AI-modellen beter te begrijpen.

De stiekeme oorsprong van vooringenomenheid

De huidige AI-modellen zijn vaak vooraf getraind en open source, waardoor zowel onderzoekers als bedrijven AI snel kunnen implementeren en afstemmen op hun specifieke behoeften.

Hoewel deze benadering AI meer commercieel beschikbaar maakt, is er een reëel nadeel: namelijk dat een handvol modellen nu de basis vormen voor de meeste AI-toepassingen in verschillende sectoren en continenten. Deze systemen worden belast door onopgemerkte of onbekende vooroordelen, wat betekent dat ontwikkelaars die ze aanpassen voor hun applicaties werken vanuit een fragiele basis.

Volgens een recente studies door Stanford's Center for Research on Foundation Models, worden eventuele vooroordelen binnen deze fundamentele modellen of de gegevens waarop ze zijn gebouwd, overgenomen door degenen die ze gebruiken, waardoor potentieel voor versterking ontstaat.

YFCC100M is bijvoorbeeld een openbaar beschikbare dataset van Flickr die vaak wordt gebruikt om modellen te trainen. Wanneer je de afbeeldingen van mensen in deze dataset bekijkt, zul je zien dat de verspreiding van afbeeldingen over de hele wereld zwaar scheef in de richting van de VS, wat betekent dat er een gebrek is aan vertegenwoordiging van mensen uit andere regio's en culturen.

Dit soort scheeftrekkingen in trainingsgegevens resulteert in AI-modellen met onder- of overrepresentatiebias in hun output, dat wil zeggen een output die dominanter is voor blanke of westerse culturen. Wanneer meerdere datasets worden gecombineerd om grote sets trainingsdata te creëren, is er een gebrek aan transparantie en kan het steeds moeilijker worden om te weten of je een uitgebalanceerde mix van mensen, regio's en culturen hebt. Het is geen verrassing dat de resulterende AI-modellen worden gepubliceerd met grove vooroordelen daarin.

Verder, wanneer fundamentele AI-modellen worden gepubliceerd, wordt er doorgaans weinig tot geen informatie verstrekt over hun beperkingen. Het blootleggen van potentiële problemen wordt overgelaten aan de eindgebruiker om te testen - een stap die vaak over het hoofd wordt gezien. Zonder transparantie en een volledig begrip van een bepaalde dataset, is het een uitdaging om de beperkingen van een AI-model te detecteren, zoals lagere prestaties voor vrouwen, kinderen of ontwikkelingslanden.

Bij Getty Images evalueren we of er vertekening aanwezig is in onze computervisiemodellen met een reeks tests die afbeeldingen bevatten van echte, geleefde ervaringen, waaronder mensen met verschillende niveaus van bekwaamheid, genderfluïditeit en gezondheidsproblemen. Hoewel we niet alle vooroordelen kunnen opvangen, erkennen we het belang van het visualiseren van een inclusieve wereld en vinden we het belangrijk om de bestaande te begrijpen en deze waar mogelijk te confronteren.

Metadata gebruiken om vooroordelen te verminderen

Dus, hoe doen we dit? Bij het werken met AI bij Getty Images beginnen we met het bekijken van de uitsplitsing van mensen in een trainingsdataset, inclusief leeftijd, geslacht en etniciteit.

Gelukkig kunnen we dit doen omdat we een modelrelease vereisen voor de creatieve inhoud die we in licentie geven. Dit stelt ons in staat om zelf-geïdentificeerde informatie op te nemen in onze metadata (dwz een set gegevens die andere gegevens beschrijft), waardoor ons AI-team automatisch miljoenen afbeeldingen kan doorzoeken en snel scheeftrekkingen in de gegevens kan identificeren. Open source datasets worden vaak beperkt door een gebrek aan metadata, een probleem dat wordt verergerd wanneer datasets uit meerdere bronnen worden gecombineerd om een ​​grotere pool te creëren.

Maar laten we realistisch zijn: niet alle AI-teams hebben toegang tot uitgebreide metadata, en die van ons is ook niet perfect. Er bestaat een inherente afweging: grotere trainingsgegevens die leiden tot krachtigere modellen ten koste van het begrijpen van scheeftrekkingen en vooroordelen in die gegevens.

Als AI-industrie is het van cruciaal belang dat we een manier vinden om deze afweging te overwinnen, aangezien industrieën en mensen er wereldwijd van afhankelijk zijn. De sleutel is het vergroten van onze focus op datacentrische AI-modellen, een beweging die sterker begint te worden.

Waar gaan we heen?

Het aanpakken van vooroordelen in AI is geen sinecure en zal de komende jaren samenwerking in de hele technische industrie vereisen. Er zijn echter voorzorgsmaatregelen die beoefenaars nu kunnen nemen om kleine maar opmerkelijke veranderingen aan te brengen.

Wanneer bijvoorbeeld fundamentele modellen worden gepubliceerd, kunnen we de bijbehorende gegevensblad het beschrijven van de onderliggende trainingsgegevens, het verstrekken van beschrijvende statistieken van wat er in de dataset zit. Hierdoor zouden latere gebruikers een idee krijgen van de sterke punten en beperkingen van een model, waardoor ze weloverwogen beslissingen kunnen nemen. De impact kan enorm zijn.

De bovengenoemde studies op fundamentele modellen stelt de vraag: "Wat is de juiste set statistieken over de gegevens om adequate documentatie te bieden, zonder te duur of moeilijk te verkrijgen te zijn?" Specifiek voor visuele gegevens zouden onderzoekers idealiter de verdelingen van leeftijd, geslacht, ras, religie, regio, capaciteiten, seksuele geaardheid, gezondheidstoestand en meer verstrekken. Maar deze metadata is kostbaar en moeilijk te verkrijgen op grote datasets uit meerdere bronnen.

Een aanvullende benadering zou zijn dat AI-ontwikkelaars toegang hebben tot een lopende lijst van bekende vooroordelen en algemene beperkingen voor fundamentele modellen. Dit kan het ontwikkelen van een database met gemakkelijk toegankelijke tests voor vooroordelen omvatten waaraan AI-onderzoekers regelmatig kunnen bijdragen, vooral gezien hoe mensen deze modellen gebruiken.

Zo faciliteerde Twitter onlangs een concurrentie dat daagde AI-experts uit om vooroordelen in hun algoritmen bloot te leggen (Weet je nog dat ik zei dat herkenning en bewustzijn de sleutel zijn tot mitigatie?). We hebben hier meer van nodig, overal. Het regelmatig beoefenen van crowdsourcing op deze manier kan de last voor individuele beoefenaars helpen verminderen.

We hebben nog niet alle antwoorden, maar als branche moeten we goed kijken naar de gegevens die we gebruiken als oplossing voor krachtigere modellen. Dit kost geld – het versterken van vooroordelen – en we moeten de rol die we spelen binnen de oplossing accepteren. We moeten zoeken naar manieren om de trainingsgegevens die we gebruiken beter te begrijpen, vooral wanneer AI-systemen worden gebruikt om echte mensen te vertegenwoordigen of ermee te communiceren.

Deze verschuiving in denken zal bedrijven van alle soorten en maten helpen om snel scheeftrekkingen te herkennen en deze in de ontwikkelingsfase tegen te gaan, waardoor de vooroordelen worden gedempt.

PlatoAi. Web3 opnieuw uitgevonden. Gegevensintelligentie versterkt.
Klik hier om toegang te krijgen.

Bron: https://techcrunch.com/2021/09/24/ai-tradeoffs-balancing-powerful-models-and-potential-biases/

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?