Zephyrnet logo

Ketterä datamerkintä: mitä se on ja miksi sitä tarvitset

Treffi:

Ketterä datamerkintä: mitä se on ja miksi sitä tarvitset

Agile -käsite ohjelmistokehityksessä on tuottanut aaltoja eri toimialoilla tuottavuuden mullistuksella. Voidaanko samoja etuja soveltaa usein vaativaan tehtävään merkitä tietojoukkoja muistiinpanoina koneoppimiseen?


By Jennifer Prendki, Perustaja ja toimitusjohtaja @ Alectio, koneoppimisyrittäjä.

Ketteryyden käsite on varmasti suosittu tekniikassa, mutta ei sellainen, jota luonnollisesti yhdistäisit tietojen merkitsemiseen. Ja on melko helppo ymmärtää miksi: ”Ketterä” yleensä inspiroi tehokkuutta. Merkinnöistä ei kuitenkaan keskustella tuskin ML -piireissä ilman turhautuneiden huokausten paisumista.

Kuva 1: Ketterä manifesti kuvaa joukon sääntöjä, jotka ohjelmistokehittäjien mielestä tekisivät niistä tuottavampia.

Jotta ymmärrät, miten Agile tuli niin laajalti käyttöön, sinun on palattava sen alkuperään. Vuonna 2001 17 ohjelmistosuunnittelijan ryhmä tapasi Utahissa sijaitsevassa lomakeskuksessa pohtiakseen, miten teollisuutta voitaisiin parantaa. He pitivät hankkeiden hallintatapaa sopimattomana, tehottomana ja liian säänneltynä. Niinpä he keksivät ketterän manifestin, joukon ohjeita, joiden he uskoivat voivan parantaa ohjelmistosuunnittelutiimien suorituskykyä (ja järkevyyttä!). Ketterä manifesti oli protestoitu prosessin puutetta vastaan, joka haittasi edistymistä. Ja monella tapaa tämä on juuri sitä, mitä tarvitaan tietojen merkitsemiseen.

Kuva 2: Sukella syvälle ketterään manifestiin ja sen perusperiaatteisiin.

Takaisin koneoppimiseen. Ei epäilystäkään: edistys, jonka olemme saavuttaneet alalla viime vuosikymmeninä, on yksinkertaisesti järkyttävää. Niin paljon itse asiassa, että useimmat asiantuntijat ovat yhtä mieltä siitä, että tekniikka on kehittynyt liian nopeasti lakiemme ja instituutioidemme pysyäkseen mukana. (Etkö ole vakuuttunut? Ajattele vain DeepFakesin vakavia seurauksia maailmanrauhaan). Silti uusien tekoälytuotteiden räjähdyksestä huolimatta ML -hankkeiden menestys johtuu yhdestä asiasta: datasta. Jos sinulla ei ole keinoja kerätä, tallentaa, validoida, puhdistaa tai käsitellä tietoja, ML -mallisi on ikuinen unelma. Jopa OpenAI, yksi maailman arvostetuimmista ML -yrityksistä, päättivät sulkea yhden osastostaan ​​tultuaan siihen tulokseen, että heillä ei ole keinoja hankkia tutkijoilleen tarvittavia tietoja.

Ja jos luulet, että sinun tarvitsee vain löytää avoimen lähdekoodin tietokokonaisuus, jonka kanssa voit työskennellä, mieti uudelleen: käyttötapaukset, joiden kannalta asiaankuuluva avoimen lähdekoodin data on olemassa, ovat harvinaisia, useimmat näistä tietojoukoista ovat myös yllättävän virheellisiä, ja niiden käyttäminen tuotannossa olisi vain vastuutonta.

Luonnollisesti yhä paremman ja edullisemman laitteiston avulla oman tietojoukon keräämisen ei pitäisi enää olla suuri ongelma. Ydinongelma: nämä tiedot eivät kuitenkaan ole käyttökelpoisia sellaisinaan, koska ne on lisättävä huomautuksiin. Ja ulkonäöltään huolimatta se ei ole helppo tehtävä.

Kuva 3: Kaikkien tässä kuvassa olevien tasojen merkitseminen esineiden havaitsemiseen tai kohteiden segmentointiin voi kestää jopa tunnin, jopa kokeneella asiantuntijalla. Kuvittele, että sinun on tehtävä se 50,000 XNUMX kuvan osalta ja taattava huomautusten laatu ilman apua.

Merkintätiedot ovat pelottavia. Monille ML -tutkijoille tietojen kommentointi muodostaa naurettavan suuren osan heidän työmääristään. Ja vaikka tietojen merkitseminen itse ei ole mieluisa tehtävä useimmille ihmisille, prosessin ulkoistaminen kolmannelle osapuolelle voi olla vieläkin työläämpää.

Kuva 4: Kuva yhdestä Andrey Karpathyn diasta Train AI 2018: ssa, jossa hän kuvaili aikaa, jonka hän ja hänen tiiminsä käyttivät tietojen valmisteluun Teslassa.

Kuvittele, että sinun piti selittää täysin muukalaiselle, jota et ole koskaan tavannut etkä voi kommunikoida suoraan sen kanssa, mitä pidät myrkyllisenä twiitinä, osuvana hakutuloksena tai jopa kuvan jalankulkijana. Kuvittele, että satoja ihmisiä ymmärtävät ohjeesi täsmälleen samalla tavalla, vaikka heillä kaikilla voi olla erilaisia ​​mielipiteitä ja taustoja ja että he eivät ehkä tiedä mitään siitä, mitä yrität saavuttaa. Juuri tästä on etiketöintiprosessisi ulkoistaminen.

Kuva 5: Pitäisikö mainoksen ihmiset merkitä henkilöiksi?

Mitä tekemistä tällä on Agilen kanssa? Jos et ole vielä arvannut, ML -tutkijoiden keskuudessa kasvava turhautuminen merkintöihin saattaa olla vihjeemme siitä, että on aika miettiä uudelleen, miten saamme asiat aikaiseksi. On aika käyttää ketterää tiedonsiirron manifestia.

Ohjelmistokehityksen ketterä manifesti perustuu pohjimmiltaan yhteen peruskäsitteeseen: reaktiivisuus. Siinä todetaan, että jäykkä lähestymistapa ei toimi. Ohjelmistosuunnittelijoiden pitäisi sen sijaan luottaa palautteeseen - asiakkailta, vertaisryhmiltä. Heidän on oltava valmiita sopeutumaan ja oppimaan virheistään varmistaakseen, että he voivat saavuttaa lopulliset tavoitteensa. Tämä on mielenkiintoista, koska palautteen ja reaktiivisuuden puute on juuri syy siihen, miksi tiimit pelkäävät ulkoistaa. Se on tärkein syy siihen, miksi merkintätehtävät vievät usein naurettavan paljon aikaa ja voivat maksaa yrityksille miljoonia dollareita.

Onnistuneen ketterän manifestin tietomerkinnöistä pitäisi aloittaa samalla reaktiivisuusperiaatteella, joka on yllättäen ollut poissa tietojen merkintäyritysten kertomuksesta. Koulutustietojen onnistunut valmistelu sisältää yhteistyötä, palautetta ja kurinalaisuutta.

Kuva 5: Ketterä manifesti tietojen merkitsemisestä.

1. Useiden menetelmien/työkalujen yhdistäminen

Käsite Automaattinen merkintä, joka koostuu ML -mallin käyttämisestä synteettisten tarrojen luomiseen, on tullut viime vuosina yhä suositummaksi, ja se tarjoaa toivoa status quosta väsyneille, mutta on vain yksi yritys virtaviivaistaa datamerkintöjä. Totuus on kuitenkin, että mikään yksittäinen lähestymistapa ei ratkaise kaikkia ongelmia: esimerkiksi automaattisen merkinnän keskipisteessä on kana-muna-ongelma. Siksi käsite Human-in-the-loop merkinnät saavat vetoa.

Nämä yritykset tuntuvat kuitenkin koordinoimattomilta ja eivät juurikaan helpota yrityksiä, jotka usein kamppailevat nähdäkseen, miten nämä uudet paradigmat soveltuvat omiin haasteisiinsa. Siksi teollisuus tarvitsee enemmän näkyvyyttä ja avoimuutta olemassa olevien työkalujen suhteen (loistava ensimmäinen yritys tähän on TWIML -ratkaisujen opas(vaikka sitä ei ole suunnattu nimenomaan merkintäratkaisuihin), näiden työkalujen helppo integrointi sekä kokonaisvaltainen tarrojen työnkulku, joka luonnollisesti integroituu ML: n elinkaareen.

2. Markkinoiden vahvuuden hyödyntäminen

Prosessin ulkoistaminen ei ehkä ole vaihtoehto erikoiskäyttötapauksissa, joissa kukaan kolmas osapuoli ei pysty tuottamaan tyydyttäviä tuloksia. Tämä johtuu siitä, että useimmat etiketöintiyritykset luottavat joko joukkorahoitukseen tai BPO: iin, mikä tarkoittaa, että niiden merkinnät eivät ole korkeasti koulutettua työvoimaa - he eivät voi merkitä aivosyöpään magneettikuvauksissa. Onneksi jotkut startupit keskittyvät nyt erikoispalvelujen tarjoamiseen tietyille vertikaaleille.

Mutta riippumatta siitä, tarvitsetko asiantuntijoita auttamaan, on silti vaikea löytää oikea yritys sinulle. Useimmat etiketöintiyritykset tekevät kaiken, mutta lopulta niillä on omat vahvuutensa ja heikkoutensa, jotka asiakkaat huomaavat usein vasta vuoden pituisen sopimuksen allekirjoittamisen jälkeen. Kaikkien vaihtoehtojen vertailu on avain parhaiden saatavilla olevien merkintöjen löytämiseen juuri silloin, kun niitä tarvitset, ja niiden pitäisi olla olennainen osa prosessia.

3. Toistuva lähestymistapa

Tietojen merkitsemisprosessi on itse asiassa yllättäen vapautettu kaikesta palautesilmukasta, vaikka palaute on koneoppimisen ytimessä. Kukaan ei ajattele kehittävänsä mallia sokeasti, mutta silti niin perinteisesti tehdään tarrojen luomiseksi. Indeksointiprosessin ja mallin tietojoukon virittäminen ja optimointi on kiistatta oikea tapa ryhtyä indeksointi-kävely-juoksu-lähestymistapaan. Siksi ihmisen silmukkaan perustuva paradigma, jossa koneet esivalittavat ja ihmiset vahvistavat, on selvä voittaja.

Vielä lupaavampi lähestymistapa on kuunnella mallin vihjeitä sen selvittämiseksi, missä ja miksi malli epäonnistuu, mahdollisesti tunnistaa huonot tarrat ja korjata ne tarvittaessa. Yksi tapa tehdä tämä on käyttää aktiivista oppimista.

4. Laadun suosiminen määrän sijasta

Jos sinulle on opetettu, että mitä enemmän dataa, sitä parempi, et todellakaan ole ainoa: se on yksi yleisimmistä väärinkäsityksistä koneoppimisessa. Kuitenkin äänenvoimakkuudella ei ole väliä, vaan monipuolisuudella. Vaaka on yksinkertaisesti yliarvostettu. Ilmeisesti tarvitset joitain tietoja käynnistykseen, mutta suuret tietomäärät johtavat vääjäämättä tuottojen pienenemiseen - se on puhdasta taloutta.

Sen sijaan on usein hyödyllisempää sijoittaa aikaa ja rahaa oikeiden tarrojen hankkimiseen strategisesti valitulle koulutusaineistolle kuin hyödyttömän datan merkitsemiseen. Sen varmistaminen, että tietojen kuratointi (käsite tehokkaimpien harjoitustietueiden näytteenotosta) pääsee ML -elinkaareen, tulisi olla MLOps -ohjelman keskeinen tavoite parin seuraavan vuoden aikana.

Jos useimpien datatieteilijöiden tavoin olet turhautunut tietojen merkitsemiseen, saattaa olla aika kokeilla kaikkia näitä ideoita. Kuten ketterän alkuaikoina, mikään määräyksistä ei ole erityisen vaikea, mutta ne kaikki vaativat itsekuria ja tietoisuutta.

On varmasti pitkä matka, jotta nämä parhaat käytännöt sisällytettäisiin datatieteilijöiden päivittäisiin tapoihin maailmanlaajuisesti, mutta kuten mikä tahansa mielekäs muutos, se alkaa yhdestä. Muista, että vuonna 2001 kokoaminen hiihtokeskuksessa riitti käynnistämään moottorin, joka johti ohjelmistokehityksen vallankumoukseen. Vallankumouksemme saattaa jo kehittyä aavistamattomien silmiemme edessä - itse asiassa se todennäköisesti on. Pysy siis kuulolla ja nauti kyydistä.

Bio: Tohtori Jennifer Prendki on ensimmäisen ML-pohjaisen Data Prep Ops -alustan Alection perustaja ja toimitusjohtaja. Hänen ja hänen tiiminsä tehtävänä on auttaa ML -tiimejä rakentamaan malleja, joissa on vähemmän dataa, ja poistamaan kaikki "perinteiseen" tietojen valmisteluun liittyvät kipupisteet. Ennen Alectiota Jennifer oli koneoppimisen johtaja kuviossa XNUMX; hän myös rakensi koko ML -toiminnon alusta alkaen Atlassianilla ja johti useita Data Science -projekteja Walmart Labsin hakutiimissä. Hänet tunnustetaan yhdeksi alan parhaista asiantuntijoista aktiivisen oppimisen ja ML-elinkaaren hallinnan alalla, ja hän on taitava puhuja, joka nauttii puhumisesta sekä teknisille että ei-teknisille yleisöille.

Related:


PlatoAi. Web3 kuvasi uudelleen. Data Intelligence Amplified.
Napsauta tätä päästäksesi.

Lähde: https://www.kdnuggets.com/2021/08/agile-data-labeling.html

spot_img

Uusin älykkyys

spot_img