Zephyrnet-logo

Deep Learning bildetekstteknologi for forretningsapplikasjoner

Dato:

Deep Learning bildetekstteknologi for forretningsapplikasjoner
Illustrasjon: © IoT For All

Teknologier som brukes for å gjøre sekvensen av piksler avbildet på bildet til ord med kunstig intelligens, er ikke så rå som for fem eller flere år siden. Bedre ytelse, nøyaktighet og pålitelighet gjør jevn og effektiv bildeteksting mulig på forskjellige områder – fra sosiale medier til e-handel. Den automatiske opprettelsen av etiketter samsvarer med et nedlastet bilde. Denne teknologien kan hjelpe blinde mennesker til å oppdage verden rundt dem.

Denne artikkelen dekker brukstilfeller av bildetekstteknologi, dens grunnleggende struktur, fordeler og ulemper. Vi distribuerer også en modell som er i stand til å lage en meningsfull beskrivelse av hva som vises på inndatabildet.

Som et visjonsspråkmål kan bildeteksting løses ved hjelp av datasyn og NLP. AI-delen inneholder CNN-er (konvolusjonelle nevrale nettverk) og RNN-er (tilbakevendende nevrale nettverk) eller en hvilken som helst egnet modell for å nå målet.

Før vi går videre til de tekniske detaljene, la oss finne ut hvor bildeteksten står.

AI-drevet bildemerking og beskrivelsesbruk

"Bildeteksting er en av kjernefunksjonene for datasyn som kan muliggjøre et bredt spekter av tjenester," sa Xuedong Huang, en teknisk stipendiat fra Microsoft og CTO for Azure AI Cognitive Services i Redmond, Washington.

Han har et poeng ettersom det allerede er det store omfanget av områder for bildetekstteknologi, nemlig: Bildemerking for e-handel, bildedelingstjenester og nettkataloger.

I dette tilfellet utføres automatisk oppretting av tagger etter bilde. For eksempel kan det forenkle brukernes liv når de laster opp et bilde til en nettkatalog. I dette tilfellet, AI gjenkjenner bildet og genererer attributter – disse kan være signaturer, kategorier eller beskrivelser. Teknologien kan også bestemme type vare, materiale, farge, mønster og passform på klær for nettbutikker.

Samtidig kan bildeteksting implementeres av en bildedelingstjeneste eller en hvilken som helst nettkatalog for å lage en automatisk meningsfull beskrivelse av bildet for SEO- eller kategoriseringsformål. Dessuten lar bildetekster sjekke om bildet passer plattformens regler der det skal publiseres. Her fungerer det som et alternativ til CNN-kategorisering og bidrar til å øke trafikken og inntektene.

OBS: Å lage beskrivelser for videoer er en mye mer komplisert oppgave. Likevel gjør den nåværende teknologien det allerede mulig.

Automatiske bildekommentarer for blinde

For å utvikle en slik løsning må vi konvertere bildet til tekst og deretter til stemme. Dette er to velkjente anvendelser av Deep Learning-teknologi.

En app som heter Ser AI utviklet av Microsoft lar personer med øyeproblemer se verden rundt seg ved hjelp av smarttelefoner. Programmet kan lese tekst når kameraet er rettet mot det og gir lydmeldinger. Den kan gjenkjenne både trykt og håndskrevet tekst, samt identifisere gjenstander og personer.

Google introduserte også et verktøy som kan lage en tekstbeskrivelse for bildet, slik at blinde eller de som har problemer med synet kan forstå konteksten til bildet eller grafikken. Dette maskinlæringsverktøyet består av flere lag. Den første modellen gjenkjenner tekst og håndskrevne sifre i bildet. Så gjenkjenner en annen modell enkle gjenstander fra omverdenen – som biler, trær, dyr osv. Og et tredje lag er en avansert modell som er i stand til å finne ut hovedideen i den fullverdige tekstbeskrivelsen.

AI-bildeteksting for sosiale medier

Bildetekst generert ved hjelp av et AI-basert verktøy er allerede tilgjengelig for Facebook og Instagram. I tillegg blir modellen smartere hele tiden, og lærer å gjenkjenne nye objekter, handlinger og mønstre.

Facebook opprettet et system som var i stand til å lage Alt-tekstbeskrivelser for nesten fem år siden. I dag har det blitt mer nøyaktig. Tidligere beskrev det et bilde med generelle ord, men nå kan dette systemet generere en detaljert beskrivelse.

Logoidentifikasjon med AI

Bildetekstteknologi blir også distribuert med andre AI-teknologier. For eksempel er DeepLogo et nevralt nettverk basert på TensorFlow Object Detection API. Og den kan gjenkjenne logotyper. Navnet på den identifiserte logoen vises som en bildetekst på bildet. De forskning på den GAN-baserte logotypesyntesemodellen kan bringe lys over hvordan GAN-er fungerer.

Forsker på dyplæringsmodeller for bildeteksting

Vi brukte en modell som skaper en meningsfull tekstbeskrivelse for bilder, med tanke på mulige brukstilfeller. For eksempel kan bildeteksten beskrive en handling og objekter som er hovedobjektene på hvert bilde. For opplæring brukte vi Microsoft COCO 2014 datasett.

COCO-datasettet er datasett for gjenkjenning, segmentering og bildetekst i stor skala. Den inneholder rundt 1.5 millioner forskjellige objekter fordelt på 80 kategorier. Hvert bilde er kommentert med fem menneskeskapte bildetekster.

Vi søkte Andrej Karpathys trening, validering og testdeler for å dele datasett for å trene, validere og teste deler. Vi trengte også beregninger som BLEU, ROUGE, METEOR, CIDEr, SPICE, for å evaluere resultatene.

Sammenligning av ML-modeller for bildeteksting

Vanligvis koder grunnlinjearkitektur for bildeteksting inndataene til en fast form og dekoder den, ord for ord, til en sekvens.

Koderen koder inngangsbildet med tre fargekanaler til en mindre utskrift med "lærte" kanaler. Dette mindre kodede bildet er en sammendragsrepresentasjon av alt som er nyttig i det originale bildet. For koding kan enhver CNN-arkitektur brukes. Vi kan også bruke overføringslæring for koderdelen.

Dekoderen ser på det kodede bildet og genererer en bildetekst ord for ord. Deretter brukes hvert forutsagt ord til å lage neste ledd.

Før du går videre, ta en titt på hva vi har mottatt som et resultat av modelloppretting og testing med transformatormodellen Meshed-Memory.

Eksempel på bruk av en dyp læringsmodell for bildeteksting
Eksempel på bruk av en dyp læringsmodell for bildeteksting
Eksempel på bruk av en dyp læringsmodell for bildeteksting

AI-basert bildeteksting

Vi studerte også eksempler som førte til feil. Det er flere grunner til at feil vises. De vanligste feilene er dårlig bildekvalitet og fravær av visse elementer i det første datasettet. Modellen ble trent på et datasett med generelle bilder, så den gjør feil når den ikke kjenner innholdet eller ikke kan identifisere det riktig. Dette er på samme måte som den menneskelige hjernen fungerer.

Feil laget av AI-bildeteksting
En feil laget av AI-bildetekstmodellen

Her er en annen sak for å illustrere hvordan nevrale nettverk fungerer. Det var ingen tigre i datasettmodellen. I stedet valgte AI det nærmeste objektet den kjenner – det er ganske det samme, ettersom hjernen vår håndterer det ukjente.

Nevrale nettverk opererer med teksting av ukjente objekter

Opp-ned-oppmerksomhetsmodell for bildeteksting

Dette er den første modellen som sammenlignes. Opp-ned-mekanismen kombinerer Bottom-Up og Top-Down oppmerksomhetsmekanismen.

Raskere R-CNN brukes til å etablere forbindelsen mellom objektdeteksjon og bildetekstoppgaver. Regionforslagsmodellen er forhåndsopplært på datasett for gjenkjenning av objekter på grunn av å utnytte kunnskap på tvers av domener. Dessuten, i motsetning til noen andre oppmerksomhetsmekanismer, bruker begge modellene én-pass oppmerksomhet med opp-ned-mekanismen.

Raskere R-CNN (fig 5a) brukes for ekstraksjon av bildefunksjoner. Faster R-CNN er en objektdeteksjonsmodell designet for å identifisere objekter som tilhører visse klasser og lokalisere dem med avgrensende bokser. Raskere R-CNN oppdager objekter i to trinn.

Den første fasen, beskrevet som et Region Proposal Network (RPN), forutsier objektforslag. Ved å bruke grådig ikke-maksimal undertrykkelse med en intersection-over-union (IoU)-terskel, velges forslagene i toppboksen som input til det andre trinnet.

I det andre trinnet brukes region av interesse (RoI) pooling for å trekke ut et lite funksjonskart (f.eks. 14×14) for hvert boksforslag. Disse funksjonskartene blir deretter satt sammen som input til de siste lagene til CNN. Dermed består den endelige modellutgangen av en softmax-fordeling over klasseetiketter og klassespesifikke grenseboksavgrensninger for hvert boksforslag. Ordningen er hentet fra offisiell plakat.

Raskere R-CNN-modell for bildekommentarer

Gitt bildetrekk V, bruker den foreslåtte bildetekstmodellen en "myk" ovenfra-ned-oppmerksomhetsmekanisme for å veie hver funksjon under bildetekstgenerering. Dette er LSTM med en ekstra opp-ned oppmerksomhetsmekanisme. På. Dette er LSTM med en ekstra opp-ned oppmerksomhetsmekanisme. På et høyt nivå er bildetekstmodellen sammensatt av to LSTM-lag.

Meshed-Memory Transformer-modell for bildeteksting

En annen modell vi tok for å løse bildetekstoppgaven er Meshed-minne transformator. Den består av koder- og dekoderdeler. Begge er laget av stabler av oppmerksomme lag. Enkoderen inkluderer også fremmatingslag, og dekoderen har en lærbar mekanisme med vekting.

Regioner av bildet er kodet på en flernivåmåte. Modellen tar hensyn til både lavnivå- og høynivårelasjoner. Lært kunnskap er kodet som minnevektorer. Lag av koder- og dekoderdeler er koblet sammen i en mesh-lignende struktur. Dekoderen leser fra utdataene fra hvert kodingslag og utfører selvoppmerksomhet på ord og overordnede kodingslag etter at resultatet blir modulert og summert.

Så modellen kan bruke ikke bare det visuelle innholdet i bildet, men også en forkunnskap om koderen. Ordningene er hentet fra offisielt papir.

Skjema for AI-bildeteksting Skjema for AI-bildeteksting med Meshed-Memory Transformer-modell
Skjema for AI-bildeteksting med Meshed-Memory Transformer-modell

Sammenligning av to modeller for bildeteksting

Basert på vår forskning, er vi i stand til å sammenligne Up-down-modellen og M2transform-modellen, ettersom de ble trent på de samme dataene. Tabellen nedenfor gir en oppsummering av begge modellene.

Tabell – Evalueringsberegninger

BLEU1 BLEU2 CIDEr RED METEOR
UpDown modell 0.8 0.358 1.16 0.573 0.275
M2Transformer 0.8078 0.3834 1.278 0.58 0.2876

Tabell – Inferenstid og minne

Tid Minne
prosessor GPU prosessor GPU
Updown modell 104.47s 17s 1479mb 1181mb
M2Transformer 23 m 32 s 3m 16s 1423mb 1310mb

Bildetekst: Resultatanalyse og fremtidsutsikter

Begge brukte modellene viste ganske gode resultater. Med deres hjelp kan vi generere meningsfulle bildetekster for de fleste bildene fra datasettet vårt. Dessuten kan modellen gjenkjenne mange objekter og handlinger fra folks hverdag og derfor beskrive dem riktig, takket være funksjonen som er forhåndsuttrukket med Faster-RCNN, forhåndsopplært på det enorme Visual Genome-datasettet.

Hva er forskjellen?

Updown-modellen er raskere og lettere enn M2Transformer. Årsaken er at M2Transformer bruker flere teknikker, som ytterligere ("maskede") forbindelser mellom koder og dekoder, og minnevektorer for å huske tidligere opplevelser. Disse modellene bruker også forskjellige oppmerksomhetsmekanismer.

Oppmerksomhet kan utføres i en enkelt pass, mens multihodet oppmerksomhet som brukes i M2Transformer bør kjøres parallelt flere ganger. Imidlertid oppnådde M2Transormer bedre resultater i henhold til de oppnådde beregningene. Med dens hjelp kan vi generere mer korrekte og varierte bildetekster. M2Transformer-prediksjoner inneholder færre unøyaktigheter i beskrivelsen både for bilder fra datasettet og for noen andre relaterte bilder. Derfor utfører den hovedoppgaven bedre.

Vi sammenlignet to modeller, men det finnes også andre tilnærminger til oppgaven med bildeteksting. Det er mulig å endre dekoder og koder, bruke forskjellige ordvektorer, kombinere datasett og bruke overføringslæring.

Modellen kan forbedres for å oppnå bedre resultater som passer for den aktuelle virksomheten, enten som en applikasjon for personer med synsproblemer eller som tilleggsverktøy innebygd i e-handelsplattformer. For å nå dette målet bør modellen trenes på relevante datasett. For eksempel, for at et system skal beskrive tøy på riktig måte, er det bedre å kjøre trening på datasett med klær.

PlatonAi. Web3 Reimagined. Data Intelligence Amplified.
Klikk her for å få tilgang.

Kilde: https://www.iotforall.com/deep-learning-image-captioning-technology-for-business-applications

spot_img

Siste etterretning

spot_img

Chat med oss

Hei der! Hvordan kan jeg hjelpe deg?