Zephyrnet logo

Deep Learning Image Captioning Technology yrityssovelluksiin

Treffi:

Deep Learning Image Captioning -tekniikka yrityssovelluksiin
Kuva: © IoT For All

Tekniikat, joita käytetään kuvassa kuvatun pikselisarjan muuttamiseen sanoiksi tekoälyllä, eivät ole yhtä raakoja kuin viisi tai useampi vuosi sitten. Parempi suorituskyky, tarkkuus ja luotettavuus mahdollistavat kuvien tekstityksen sujuvasti ja tehokkaasti eri alueilla-sosiaalisesta mediasta sähköiseen kaupankäyntiin. Tunnisteiden automaattinen luominen vastaa ladattua valokuvaa. Tämä tekniikka voi auttaa sokeita ihmisiä löytämään ympäröivän maailman.

Tämä artikkeli kattaa kuvatekstitekniikan käyttötapaukset, sen perusrakenteen, edut ja haitat. Lisäksi otamme käyttöön mallin, joka pystyy luomaan mielekkään kuvauksen siitä, mitä syöttökuvassa näytetään.

Visio-kielellinen tavoite, kuvatekstit voitaisiin ratkaista tietokonevision ja NLP: n avulla. AI -osa on CNN: ien (konvoluution hermoverkot) ja RNN: ien (toistuvat hermoverkot) tai minkä tahansa soveltuvan mallin saavuttamiseksi.

Ennen kuin siirrymme eteenpäin teknisiin yksityiskohtiin, selvitetään, missä kuvatekstit ovat.

Tekoälyvetoisten kuvien merkitseminen ja kuvaus Käyttötapaukset

"Kuvatekstitys on yksi keskeisistä tietokoneen näkökyvyistä, joka voi mahdollistaa laajan valikoiman palveluita", sanoi Xuedong Huang, Microsoftin tekninen stipendiaatti ja Azure AI Cognitive Servicesin teknologiajohtaja Redmondissa, Washingtonissa.

Hänellä on pointti, sillä kuvatekstitekniikalla on jo laaja valikoima alueita, nimittäin: Kuvan koodaus sähköiseen kaupankäyntiin, valokuvien jakamispalvelut ja online-luettelot.

Tässä tapauksessa tunnisteet luodaan automaattisesti valokuvan avulla. Se voi esimerkiksi yksinkertaistaa käyttäjien elämää, kun he lataavat kuvan online -luetteloon. Tässä tapauksessa, AI tunnistaa kuvan ja luo attribuutteja - ne voivat olla allekirjoituksia, luokkia tai kuvauksia. Tekniikka voi myös määrittää verkkokauppojen vaatetyypin, materiaalin, värin, kuvion ja istuvuuden.

Samaan aikaan kuvien tekstitys voidaan toteuttaa valokuvien jakamispalvelun tai minkä tahansa online-luettelon avulla luodaksesi kuvasta automaattisen mielekkään kuvauksen hakukoneoptimointia tai luokittelua varten. Lisäksi kuvatekstit mahdollistavat sen, että kuva sopii alustan sääntöihin, joissa se julkaistaan. Täällä se toimii vaihtoehtona CNN -luokitukselle ja auttaa lisäämään liikennettä ja tuloja.

Huomautus: Kuvausten luominen videoille on paljon monimutkaisempi tehtävä. Silti tekniikan nykytila ​​mahdollistaa sen jo nyt.

Automaattiset kuvamerkinnät sokeille

Tällaisen ratkaisun kehittämiseksi meidän on muutettava kuva tekstiksi ja sitten ääniksi. Nämä ovat kaksi syväoppimisen tekniikan tunnettua sovellusta.

Soitettu sovellus AI: n näkeminen Microsoftin kehittämä mahdollistaa silmäongelmaisten ihmisten nähdä ympäröivän maailman älypuhelimilla. Ohjelma voi lukea tekstiä, kun kamera osoittaa sitä ja antaa äänikehotteita. Se voi tunnistaa sekä painetun että käsin kirjoitetun tekstin sekä tunnistaa esineitä ja ihmisiä.

Google esitteli myös työkalun, jolla voidaan luoda kuvalle tekstikuvaus, jonka avulla sokeat tai näköongelmista kärsivät voivat ymmärtää kuvan tai grafiikan kontekstin. Tämä koneoppimistyökalu koostuu useista kerroksista. Ensimmäinen malli tunnistaa tekstin ja käsin kirjoitetut numerot kuvassa. Sitten toinen malli tunnistaa ympäröivän maailman yksinkertaisia ​​esineitä, kuten autoja, puita, eläimiä jne. Ja kolmas kerros on kehittynyt malli, joka pystyy selvittämään pääidean täysimittaisesta tekstikuvauksesta.

AI -kuvatekstit sosiaaliseen mediaan

Tekoälypohjaisen työkalun avulla luotu kuvateksti on jo saatavilla Facebookille ja Instagramille. Lisäksi malli tulee koko ajan älykkäämmäksi ja oppii tunnistamaan uusia esineitä, toimia ja malleja.

Facebook loi lähes viisi vuotta sitten järjestelmän, joka pystyy luomaan vaihtoehtoisia tekstikuvauksia. Nykyään siitä on tullut tarkempi. Aiemmin se kuvasi kuvaa yleisillä sanoilla, mutta nyt tämä järjestelmä voi luoda yksityiskohtaisen kuvauksen.

Logon tunnistus tekoälyn avulla

Kuvatekstitekniikkaa käytetään myös muiden tekoälytekniikoiden kanssa. Esimerkiksi DeepLogo on hermoverkko, joka perustuu TensorFlow Object Detection -sovellusliittymään. Ja se tunnistaa logot. Tunnistetun logon nimi näkyy kuvatekstinä kuvassa. The tutkimus GAN-pohjaisen logotyyppisynteesimallin avulla voisi tuoda valoa GAN: ien toimintaan.

Tutkitaan syväoppimismalleja kuvatekstejä varten

Käytimme mallia, joka luo kuville mielekkään tekstikuvauksen pitäen mielessä mahdolliset käyttötapaukset. Kuvateksti voi esimerkiksi kuvata toimintoa ja objekteja, jotka ovat kunkin kuvan pääobjekteja. Koulutuksessa käytimme Microsoft COCO 2014 -tietoaineistoa.

COCO-tietojoukko on laajamittainen objektien havaitsemis-, segmentointi- ja kuvatekstitiedosto. Se sisältää noin 1.5 miljoonaa erilaista kohdetta jaettuna 80 kategoriaan. Jokaisessa kuvassa on viisi ihmisen luomaa kuvatekstiä.

Hakimme Andrej Karpathyn koulutus, validointi ja testiosuudet tietojoukkojen jakamiseen osien kouluttamiseen, validointiin ja testaamiseen. Tarvitsimme myös mittareita, kuten BLEU, ROUGE, METEOR, CIDEr, SPICE, tulosten arvioimiseksi.

ML -mallien vertailu kuvatekstejä varten

Yleensä kuvatekstien perusarkkitehtuuri koodaa syötteen kiinteään muotoon ja purkaa sen sanasta sanaan sekvenssiksi.

Kooderi koodaa syötetyn kuvan kolmella värikanavalla pienemmäksi tulosteeksi, jossa on "opitut" kanavat. Tämä pienempi koodattu kuva on yhteenveto kaikesta hyödyllisestä alkuperäisessä kuvassa. Koodausta varten voidaan käyttää mitä tahansa CNN -arkkitehtuuria. Voimme myös käyttää siirto -oppimista kooderiosalle.

Dekooderi katsoo koodattua kuvaa ja luo tekstityksen sanasta sanaan. Sitten kutakin ennustettua sanaa käytetään seuraavan termin luomiseen.

Ennen kuin siirryt eteenpäin, katso mitä olemme saaneet mallin luomisen ja testaamisen tuloksena Meshed-Memory-muuntajamallilla.

Esimerkki syvän oppimisen mallin käyttämisestä kuvatekstissä
Esimerkki syvän oppimisen mallin käyttämisestä kuvatekstissä
Esimerkki syvän oppimisen mallin käyttämisestä kuvatekstissä

AI-pohjainen kuvateksti

Tutkimme myös esimerkkejä, jotka johtivat virheisiin. Virheiden ilmaantumiseen on useita syitä. Yleisimpiä virheitä ovat huono kuvanlaatu ja tiettyjen elementtien puuttuminen alkuperäisestä tietojoukosta. Malli on koulutettu tietojoukolla, jossa on yleisiä kuvia, joten se tekee virheitä, kun se ei tunne sisältöä tai ei tunnista sitä oikein. Tämä on sama tapa, jolla ihmisen aivot toimivat.

AI -kuvatekstien tekemät virheet
AI -kuvatekstimallin tekemä virhe

Tässä on toinen tapa havainnollistaa neuroverkkojen toimintaa. Aineistomallissa ei ollut tiikereitä. Sen sijaan AI valitsi lähimmän tuntemansa kohteen - se on aivan sama, koska aivomme käsittelevät tuntematonta.

Neuraaliverkot käyttävät tekstitystä tuntemattomille kohteille

Ylös-alas-huomion malli kuvatekstille

Tämä on ensimmäinen vertailtava malli. Ylös-alas-mekanismi yhdistää alhaalta ylös ja ylhäältä alas -huomiomekanismin.

Nopeampaa R-CNN: ää käytetään muodostamaan yhteys kohteen havaitsemis- ja kuvatekstitystehtävien välille. Alue-ehdotusmalli on esikoulutettu objektien havaitsemista koskeviin tietojoukkoihin verkkotunnusten välisen tiedon hyödyntämisen vuoksi. Lisäksi, toisin kuin jotkut muut tarkkailumekanismit, molemmat mallit käyttävät yhden käden huomiota ylös-alas-mekanismin kanssa.

Nopeampaa R-CNN: ää (kuva 5a) käytetään kuvaominaisuuksien poimintaan. Nopeampi R-CNN on objektin tunnistusmalli, joka on suunniteltu tunnistamaan tiettyihin luokkiin kuuluvat objektit ja paikantamaan ne rajauslaatikoilla. Nopeampi R-CNN tunnistaa esineet kahdessa vaiheessa.

Ensimmäinen vaihe, jota kutsutaan alue -ehdotusverkkoksi (RPN), ennustaa objektiehdotuksia. Käyttämällä ahneita ei-maksimivaimennuksia interaktion yli liiton (IoU) kynnyksen kanssa ylälaatikon ehdotukset valitaan syöttöksi toiseen vaiheeseen.

Toisessa vaiheessa kiinnostavien alueiden (RoI) poolointia käytetään pienen ominaisuuskartan (esim. 14 × 14) poimimiseksi jokaiselle laatikkoehdotukselle. Nämä ominaisuuskartat kerätään sitten yhteen syötteenä CNN: n viimeisille kerroksille. Näin ollen lopullinen mallitulos muodostuu softmax-jakautumisesta luokkatarroille ja luokkakohtaisista rajauslaatikon tarkennuksista kullekin laatikkoehdotukselle. Kaavio on otettu virallinen juliste.

Nopeampi R-CNN-malli kuvan merkitsemiseen

Ottaen huomioon kuvaominaisuudet V ehdotettu kuvatekstimalli käyttää "pehmeää" ylhäältä alaspäin suuntautuvaa tarkkailumekanismia punnitakseen jokaisen ominaisuuden tekstityksen luomisen aikana. Tämä on LSTM, johon on lisätty ylös-alas-tarkkailumekanismi. Päällä. Tämä on LSTM, johon on lisätty ylös-alas-tarkkailumekanismi. Tekstitysmalli koostuu korkealla tasolla kahdesta LSTM -kerroksesta.

Silmämuistimuuntajamalli kuvatekstille

Toinen malli, jonka otimme ratkaistaksesi kuvatekstitehtävän, on Meshed-muuntaja. Se koostuu kooderin ja dekooderin osista. Molemmat on valmistettu tarkkaavaisten kerrosten pinoista. Kooderi sisältää myös syöttökerroksia, ja dekooderissa on opittava mekanismi painotuksella.

Kuvan alueet on koodattu monitasoisesti. Malli ottaa huomioon sekä matalan että korkean tason suhteet. Opittu tieto koodataan muistivektoreiksi. Kooderin ja dekooderin osien kerrokset on yhdistetty verkkomaiseen rakenteeseen. Dekooderi lukee kunkin koodauskerroksen lähdöstä ja suorittaa itsetarkkailun sanoille ja ristikkäistä huomiota koodauskerroksille sen jälkeen, kun tulokset on moduloitu ja laskettu yhteen.

Malli voi siis käyttää kuvan visuaalisen sisällön lisäksi myös kooderin ennakkotietoa. Järjestelmät on otettu virallinen lehti.

Kaavio tekoälykuvien kuvatekstille Kaavio tekoälykuvien kuvatekstille Meshed-Memory Transformer -mallilla
Kaavio AI-kuvatekstityksestä Meshed-Memory Transformer -mallilla

Kahden mallin vertailu kuvatekstejä varten

Tutkimuksemme perusteella voimme verrata ylös-alas-mallia ja M2transform-mallia, koska heidät on koulutettu samoihin tietoihin. Alla olevassa taulukossa on yhteenveto molemmista malleista.

Taulukko - Arviointitiedot

BLEU1 BLEU2 Siideri RED METEOR
UpDown -malli 0.8 0.358 1.16 0.573 0.275
M2 -muuntaja 0.8078 0.3834 1.278 0.58 0.2876

Taulukko - Häiriöaika ja muisti

Aika: Muisti
prosessori GPU prosessori GPU
Päivitetty malli 104.47s 17s 1479mb 1181mb
M2 -muuntaja 23 m 32 XNUMX s 3t 16s 1423mb 1310mb

Kuvatekstitys: Tulosanalyysi ja tulevaisuuden näkymät

Molemmat käytetyt mallit osoittivat melko hyviä tuloksia. Heidän avullaan voimme luoda mielekkäitä kuvatekstejä useimmille aineistomme kuville. Lisäksi nopean RCNN: n avulla esipuristetun ominaisuuden ansiosta, joka on esikoulutettu valtavaan Visual Genome -tietoaineistoon, malli voi tunnistaa monia esineitä ja toimintoja ihmisten jokapäiväisestä elämästä ja kuvata niitä siksi oikein.

Mikä on ero?

Updown -malli on nopeampi ja kevyempi kuin M2Transformer. Syynä on se, että M2Transformer käyttää enemmän tekniikoita, kuten ylimääräisiä ("verkotettuja") yhteyksiä kooderin ja dekooderin välillä, ja muistivektoreita menneiden kokemusten muistamiseen. Lisäksi nämä mallit käyttävät erilaisia ​​tarkkailumekanismeja.

Päivitetty huomio voidaan suorittaa yhdellä kertaa, kun taas M2Transformerissa käytettävän monipäisen huomion tulisi toimia rinnakkain useita kertoja. Kuitenkin saatujen mittareiden mukaan M2Transormer saavutti parempia tuloksia. Sen avulla voimme luoda oikeampia ja monipuolisempia kuvatekstejä. M2Transformer -ennusteet sisältävät vähemmän epätarkkuuksia sekä tietojoukon kuvissa että joissakin muissa liittyvissä kuvissa. Siksi se suorittaa päätehtävän paremmin.

Vertasimme kahta mallia, mutta on myös muita lähestymistapoja kuvatekstitykseen. On mahdollista vaihtaa dekooderia ja kooderia, käyttää erilaisia ​​sanavektoreita, yhdistää tietojoukkoja ja soveltaa siirto -oppimista.

Mallia voitaisiin parantaa, jotta saavutettaisiin parempia tuloksia, jotka sopivat tietylle liiketoiminnalle, joko sovelluksena näköongelmista kärsiville ihmisille tai lisävälineiksi sähköisen kaupankäynnin alustoille. Tämän tavoitteen saavuttamiseksi malli olisi koulutettava asiaankuuluviin tietojoukkoihin. Esimerkiksi, jotta järjestelmä kuvaisi kankaan oikein, on parempi suorittaa koulutus tietojoukoilla vaatteiden kanssa.

PlatoAi. Web3 kuvasi uudelleen. Data Intelligence Amplified.
Napsauta tätä päästäksesi.

Lähde: https://www.iotforall.com/deep-learning-image-captioning-technology-for-business-applications

spot_img

Uusin älykkyys

spot_img

Keskustele kanssamme

Hei siellä! Kuinka voin olla avuksi?