Zephyrnet-logo

Agile Data Labeling: wat het is en waarom je het nodig hebt

Datum:

Agile Data Labeling: wat het is en waarom je het nodig hebt

Het idee van Agile in softwareontwikkeling heeft in alle sectoren furore gemaakt met zijn revolutie voor productiviteit. Kunnen dezelfde voordelen worden toegepast op de vaak zware taak van het annoteren van datasets voor machine learning?


By Jennifer Prendki, Oprichter en CEO @ Alectio, Machine Learning Entrepreneur.

Het concept van wendbaarheid is zeker populair in de technologie, maar niet een concept dat je van nature zou associëren met datalabeling. En het is vrij eenvoudig te begrijpen waarom: "Agile" inspireert doorgaans tot efficiëntie. Etikettering wordt echter nauwelijks besproken in ML-kringen zonder een golf van gefrustreerde zuchten op te wekken.

Figuur 1: Het Agile Manifesto beschrijft een reeks 'regels' waarvan softwareontwikkelaars denken dat die hen productiever zouden maken.

Om te begrijpen hoe Agile zo wijdverbreid werd, moet je teruggaan naar zijn oorsprong. In 2001 kwam een ​​groep van 17 software-ingenieurs bijeen in een resort in Utah om te brainstormen over hoe ze hun branche konden verbeteren. Ze vonden de manier waarop projecten werden beheerd ongepast, inefficiënt en overdreven gereguleerd. Dus bedachten ze het Agile Manifesto, een reeks richtlijnen waarvan ze dachten dat ze de doorvoer (en het niveau van gezond verstand!) van software-engineeringteams zouden kunnen verbeteren. Het Agile Manifesto was een protest tegen een gebrek aan proces dat vooruitgang in de weg stond. En in veel opzichten is dit precies wat nodig is voor gegevenslabels.

Figuur 2: Een diepe duik in het Agile Manifesto en zijn kernprincipes.

Terug naar machinaal leren. Geen twijfel mogelijk: de vooruitgang die we de afgelopen decennia op dit gebied hebben geboekt, is gewoon verbijsterend. Zozeer zelfs dat de meeste experts het erover eens zijn dat de technologie te snel is geëvolueerd om onze wetten en instellingen bij te houden. (Niet overtuigd? Denk maar aan de ernstige gevolgen die DeepFakes kunnen hebben voor de wereldvrede). Ondanks de explosie van nieuwe AI-producten, komt het succes van ML-projecten echter neer op één ding: data. Als u niet over de middelen beschikt om de gegevens te verzamelen, op te slaan, te valideren, op te schonen of te verwerken, dan zal uw ML-model voor altijd een verre droom blijven. Zelfs OpenAI, een van de meest prestigieuze ML-bedrijven ter wereld, besloten een van hun afdelingen te sluiten nadat ze tot de conclusie waren gekomen dat ze niet de middelen hadden om de gegevens te verzamelen die nodig waren voor hun onderzoekers.

En als je denkt dat je alleen maar een open-source dataset hoeft te vinden om mee te werken, denk dan nog eens goed na: niet alleen zijn de use-cases waarvoor relevante open-source data bestaan ​​schaars, de meeste van deze datasets zijn ook verrassend verkeerd gereden, en het gebruik ervan in de productie zou ronduit onverantwoord zijn.

Met steeds betere en goedkopere hardware hoeft het verzamelen van je eigen dataset natuurlijk geen probleem meer te zijn. Het kernprobleem is echter: die gegevens zijn niet bruikbaar zoals ze zijn, omdat ze moeten worden geannoteerd. En hoe het er ook uitziet, dat is geen gemakkelijke opgave.

Afbeelding 3: Het annoteren van alle vlakken in deze afbeelding voor gebruiksscenario's voor objectdetectie of objectsegmentatie kan meer dan een uur duren, zelfs voor een ervaren expert. Stel je voor dat je dat voor 50,000 afbeeldingen moet doen en zonder hulp de kwaliteit van de aantekeningen moet garanderen.

Het labelen van gegevens is ontmoedigend. Voor veel ML-wetenschappers vormt het annoteren van gegevens een belachelijk groot deel van hun werklast. En hoewel het voor de meeste mensen geen plezierige taak is om zelf gegevens te annoteren, kan het uitbesteden van het proces aan een derde partij nog vervelender zijn.

Afbeelding 4: Een foto van een van Andrey Karpathy's dia's op Train AI 2018, waar hij de tijd beschreef die hij en zijn team besteedden aan gegevensvoorbereiding bij Tesla.

Stel je voor dat je moest uitleggen aan een volslagen vreemde die je nooit hebt ontmoet en die niet direct kan communiceren met wat je beschouwt als een giftige tweet, een relevant resultaat voor een zoekopdracht, of zelfs een voetganger op een foto. Stelt u zich eens voor dat honderden mensen uw instructie op exact dezelfde manier zullen begrijpen, ook al hebben ze allemaal verschillende meningen en achtergronden en weten ze misschien niets van wat u probeert te bereiken. Dat is precies waar het uitbesteden van uw etiketteringsproces om draait.

Afbeelding 5: Moeten de mensen op de advertentie worden gelabeld als personen?

Wat heeft dit met Agile te maken? Nou, als je het nog niet geraden hebt, zou de groeiende frustratie onder ML-wetenschappers met betrekking tot etikettering ons signaal kunnen zijn dat het tijd is om te heroverwegen hoe we dingen voor elkaar krijgen. Het is tijd voor het Agile Manifesto of Data Labeling.

Het Agile Manifesto of Software Development komt in wezen neer op één fundamenteel concept: reactiviteit. Het stelt dat een rigide aanpak niet werkt. In plaats daarvan moeten software-engineers vertrouwen op feedback - van klanten, van collega's. Ze moeten bereid zijn zich aan te passen en van hun fouten te leren om ervoor te zorgen dat ze hun uiteindelijke doelen kunnen bereiken. Dat is interessant, want juist het gebrek aan feedback en reactiviteit is de reden waarom teams bang zijn om uit te besteden. Het is de belangrijkste reden waarom labeltaken vaak belachelijk veel tijd kosten en bedrijven miljoenen dollars kunnen kosten.

Een succesvol Agile Manifesto of Data Labeling zou moeten beginnen met hetzelfde principe van reactiviteit, dat verrassend afwezig was in het verhaal van datalabelingbedrijven. Succesvolle voorbereiding van trainingsgegevens omvat samenwerking, feedback en discipline.

Figuur 5: Een Agile Manifest van Data Labeling.

1. Combineren van meerdere methoden/tools

Het concept van Automatisch labelen, dat bestaat uit het gebruik van een ML-model om 'synthetische' labels te genereren, is de afgelopen jaren steeds populairder geworden en biedt hoop aan degenen die de status-quo beu zijn, maar het is slechts één poging om gegevenslabels te stroomlijnen. De waarheid is echter dat geen enkele aanpak alle problemen zal oplossen: de kern van autolabeling is bijvoorbeeld een kip-en-ei-probleem. Daarom is het concept van Mens-in-de-lus etikettering wint aan populariteit.

Dat gezegd hebbende, die pogingen voelen ongecoördineerd aan en brengen weinig tot geen verlichting voor bedrijven die vaak moeite hebben om te zien hoe die nieuwe paradigma's van toepassing zijn op hun eigen uitdagingen. Daarom heeft de industrie behoefte aan meer zichtbaarheid en transparantie met betrekking tot bestaande tools (een prachtige eerste poging hiertoe is de TWIML-oplossingengids, hoewel het niet specifiek gericht is op etiketteringsoplossingen), gemakkelijke integratie tussen die tools, evenals een end-to-end etiketteringsworkflow die natuurlijk integreert met de rest van de ML-levenscyclus.

2. Gebruikmaken van de kracht van de markt

Het uitbesteden van het proces is misschien geen optie voor speciale toepassingen waarvoor geen enkele derde partij in staat is bevredigende resultaten te leveren. Dat komt omdat de meeste labelbedrijven afhankelijk zijn van crowdsourcing of BPO's, wat betekent dat hun annotators geen hoogopgeleide arbeidskrachten zijn - ze zullen niet in staat zijn om hersenkanker voor u op MRI's te annoteren. Gelukkig richten sommige startups zich nu op het leveren van gespecialiseerde diensten voor specifieke branches.

Maar ongeacht of u experts nodig hebt om te helpen, het is nog steeds moeilijk om het juiste bedrijf voor u te vinden. De meeste etiketteringsbedrijven doen het allemaal, maar hebben uiteindelijk hun eigen sterke en zwakke punten, die klanten vaak pas ontdekken na ondertekening van een contract van een jaar. Het vergelijken van alle opties is de sleutel tot het vinden van de allerbeste annotators die beschikbaar zijn op het moment dat je ze nodig hebt en zou een essentieel onderdeel van het proces moeten zijn.

3. Een iteratieve benadering volgen

Het proces van het labelen van gegevens is eigenlijk verrassend vrijgesteld van elke feedbacklus, ook al staat feedback centraal bij Machine Learning. Niemand zou eraan denken om blindelings een model te ontwikkelen, en toch is dat wat traditioneel wordt gedaan om labels te genereren. Een crawl-walk-run-benadering om uw labelproces en uw dataset voor het model af te stemmen en te optimaliseren, is ongetwijfeld de juiste keuze. Daarom is een op mens-in-de-loop gebaseerd paradigma, waarbij machines vooraf annoteren en mensen valideren, de duidelijke winnaar.

Een nog meer veelbelovende aanpak bestaat uit het luisteren naar de aanwijzingen van het model om te identificeren waar en waarom het model faalt, mogelijk slechte labels te identificeren en deze indien nodig te corrigeren. Een manier om dit te doen is door gebruik te maken van Active Learning.

4. Kwaliteit boven kwantiteit verkiezen

Als je hebt geleerd dat hoe meer gegevens, hoe beter, je zeker niet de enige bent: dat is een van de meest voorkomende misvattingen in Machine Learning. Het is echter niet het volume dat telt, maar de variatie. Schaal is gewoon overschat. Je hebt natuurlijk wat data nodig om te bootstrappen, maar grote hoeveelheden data leiden onverbiddelijk tot afnemende opbrengsten - dat is pure economie.

In plaats daarvan is het vaak voordeliger om tijd en geld te investeren in het verkrijgen van de juiste labels voor een strategisch gekozen trainingsdataset dan in het labelen van massa's nutteloze gegevens. Ervoor zorgen dat datacuratie (het concept van het samplen van de meest impactvolle trainingsrecords) in de ML-levenscyclus terechtkomt, moet de komende jaren een belangrijk aandachtspunt zijn in MLOps.

Als je, zoals de meeste datawetenschappers, gefrustreerd raakt over het labelen van gegevens, is het misschien tijd om al die ideeën eens te proberen. Net als in de begindagen van Agile, is geen van de principes bijzonder moeilijk om op hun plaats te houden, maar ze vereisen allemaal zelfdiscipline en bewustzijn.

Er is zeker nog een lange weg te gaan om die best practices te integreren in de dagelijkse gewoonten van datawetenschappers over de hele wereld, maar zoals elke betekenisvolle verandering begint het met één. Bedenk dat in 2001 een vergadering in een skiresort voldoende was om de motor te starten die leidde tot een revolutie in softwareontwikkeling. Onze revolutie ontvouwt zich misschien al voor onze nietsvermoedende ogen - in feite is dat waarschijnlijk zo. Dus blijf op de hoogte en geniet van de rit.

Bio: Dr Jennifer Prendki is de oprichter en CEO van Alectio, het eerste ML-gedreven Data Prep Ops-platform. Zij en haar team hebben een missie om ML-teams te helpen modellen met minder gegevens te bouwen en alle pijnpunten die samenhangen met 'traditionele' gegevensvoorbereiding te verwijderen. Voorafgaand aan Alectio was Jennifer de VP Machine Learning bij Figure Eight; ze bouwde ook een volledige ML-functie vanaf het begin bij Atlassian en leidde meerdere Data Science-projecten in het Search-team van Walmart Labs. Ze wordt erkend als een van de beste experts in de branche op het gebied van actief leren en ML-levenscyclusbeheer, en is een ervaren spreker die graag zowel technische als niet-technische doelgroepen aanspreekt.

Zie ook:


PlatoAi. Web3 opnieuw uitgevonden. Gegevensintelligentie versterkt.
Klik hier om toegang te krijgen.

Bron: https://www.kdnuggets.com/2021/08/agile-data-labeling.html

spot_img

Laatste intelligentie

spot_img