Zephyrnet-logotyp

Deep Learning bildtextningsteknik för affärsapplikationer

Datum:

Deep Learning Image Captinging Technology for Business Applications
Illustration: © IoT för alla

Tekniker som används för att göra sekvensen av pixlar som visas på bilden till ord med artificiell intelligens är inte lika rå som för fem eller flera år sedan. Bättre prestanda, noggrannhet och tillförlitlighet gör smidig och effektiv bildtext möjlig inom olika områden-från sociala medier till e-handel. Den automatiska skapandet av taggar motsvarar ett nedladdat foto. Denna teknik kan hjälpa blinda människor att upptäcka omvärlden.

Denna artikel behandlar användningsfall av teknik för bildtexter, dess grundläggande struktur, fördelar och nackdelar. Vi distribuerar också en modell som kan skapa en meningsfull beskrivning av vad som visas på inmatningsbilden.

Som ett visionsspråkigt mål kunde bildtexter lösas med hjälp av datorsyn och NLP. AI -delen ombord på CNN (konvolutionella neurala nätverk) och RNN (återkommande neurala nätverk) eller någon tillämplig modell för att nå målet.

Innan vi går vidare till de tekniska detaljerna, låt oss ta reda på var bildtexter står.

AI-driven bildmärkning och beskrivning Användningsfall

"Bildtexter är en av de viktigaste datorsynfunktionerna som kan möjliggöra ett brett utbud av tjänster," sade Xuedong Huang, en Microsoft -tekniker och CTO för Azure AI Cognitive Services i Redmond, Washington.

Han har en poäng eftersom det redan finns ett stort antal områden för teknik för bildtexter, nämligen: Bildmärkning för e-handel, fotodelningstjänster och onlinekataloger.

I det här fallet utförs automatiskt skapande av taggar efter foto. Det kan till exempel förenkla användarnas liv när de laddar upp en bild till en onlinekatalog. I detta fall, AI känner igen bilden och genererar attribut - det kan vara signaturer, kategorier eller beskrivningar. Tekniken kan också avgöra vilken typ av föremål, material, färg, mönster och passform kläder för onlinebutiker har.

Samtidigt kan bildtexter implementeras med en bilddelningstjänst eller någon online-katalog för att skapa en automatisk meningsfull beskrivning av bilden för SEO eller kategoriseringsändamål. Dessutom tillåter bildtexter att kontrollera om bilden passar plattformens regler där den ska publiceras. Här fungerar det som ett alternativ till CNN -kategorisering och hjälper till att öka trafik och intäkter.

Notera: Att skapa beskrivningar för videor är en mycket mer komplicerad uppgift. Ändå gör det nuvarande teknikläget det redan möjligt.

Automatiska bildannoteringar för blinda

För att utveckla en sådan lösning måste vi konvertera bilden till text och sedan till röst. Dessa är två välkända tillämpningar av Deep Learning-teknik.

En app som heter Se AI utvecklat av Microsoft gör det möjligt för personer med ögonproblem att se omvärlden med hjälp av smartphones. Programmet kan läsa text när kameran är riktad mot den och ger ljudmeddelanden. Den kan känna igen både tryckt och handskriven text, samt identifiera objekt och människor.

Google introducerade också ett verktyg som kan skapa en textbeskrivning för bilden, så att blinda personer eller personer med synproblem kan förstå bildens eller grafikens sammanhang. Detta maskininlärningsverktyg består av flera lager. Den första modellen känner igen text och handskrivna siffror i bilden. Sedan känner en annan modell igen enkla objekt från omvärlden-som bilar, träd, djur etc. Och ett tredje lager är en avancerad modell som kan ta reda på huvudidén i den fullvärdiga textbeskrivningen.

AI -bildtext för sociala medier

Bildtext genererad med hjälp av ett AI-baserat verktyg är redan tillgängligt för Facebook och Instagram. Dessutom blir modellen smartare hela tiden och lär sig känna igen nya objekt, handlingar och mönster.

Facebook skapade ett system som kunde skapa Alt -textbeskrivningar för nästan fem år sedan. Numera har det blivit mer exakt. Tidigare beskrev den en bild med allmänna ord, men nu kan detta system generera en detaljerad beskrivning.

Logotypidentifiering med AI

Bildtextning används också med andra AI -tekniker. Till exempel är DeepLogo ett neuralt nätverk baserat på TensorFlow Object Detection API. Och den kan känna igen logotyper. Namnet på den identifierade logotypen visas som en bildtext på bilden. De forskning på den GAN-baserade logotypsyntesemodellen kan belysa hur GAN fungerar.

Forskning på djupinlärningsmodeller för bildtextning

Vi använde en modell som skapar en meningsfull textbeskrivning för bilder, med tanke på möjliga användningsfall. Exempelvis kan bildtexten beskriva en handling och objekt som är huvudobjekt på varje bild. För utbildning använde vi Microsoft COCO 2014 -dataset.

COCO-dataset är en storskalig objektdetektering, segmentering och bildtexter. Den innehåller cirka 1.5 miljoner olika objekt uppdelade i 80 kategorier. Varje bild är annoterad med fem bildade bildtext.

Vi sökte Andrej Karpathys utbildning, validering och testdelningar för att dela upp datamängder för att träna, validera och testa delar. Vi behövde också mätvärden som BLEU, ROUGE, METEOR, CIDEr, SPICE, för att utvärdera resultat.

Jämförelse av ML -modeller för bildtextning

Normalt kodar baslinjearkitektur för bildtexter ingången till en fast form och avkodar den ord för ord till en sekvens.

Kodaren kodar inmatningsbilden med tre färgkanaler till ett mindre tryck med ”inlärda” kanaler. Denna mindre kodade bild är en sammanfattning av allt som är användbart i originalbilden. För kodning kan vilken CNN -arkitektur som helst tillämpas. Vi kan också använda överföringsinlärning för kodardelen.

Avkodaren tittar på den kodade bilden och genererar en bildtext ord för ord. Sedan används varje förutsagt ord för att skapa nästa term.

Innan du går vidare, ta en titt på vad vi har fått som ett resultat av modellen skapande och testning med transformatormodellen Meshed-Memory.

Exempel på att använda en djupinlärningsmodell för bildtexter
Exempel på att använda en djupinlärningsmodell för bildtexter
Exempel på att använda en djupinlärningsmodell för bildtexter

AI-baserad bildtextning

Vi studerade också exempel som ledde till fel. Det finns flera anledningar till att fel uppstår. De vanligaste misstagen är dålig bildkvalitet och frånvaron av vissa element i den första datauppsättningen. Modellen utbildades på en datamängd med allmänna bilder, så den gör misstag när den inte känner till innehållet eller inte kan identifiera det korrekt. Detta är samma sätt som den mänskliga hjärnan fungerar.

Fel som gjorts genom bildtextning av AI
Ett fel som gjorts av AI -bildtextsmodell

Här är ett annat fall för att illustrera hur neurala nätverk fungerar. Det fanns inga tigrar i datamodellen. Istället valde AI det närmaste objektet det vet - det är ganska samma sak, eftersom vår hjärna hanterar det okända.

Neurala nätverk använder textning av okända objekt

Upp-ner uppmärksamhet modell för bildtexter

Detta är den första modellen att jämföra. Upp-ned-mekanismen kombinerar uppifrån och ned-uppmärksamhetsmekanismen.

Snabbare R-CNN används för att upprätta sambandet mellan objektdetektering och bildtexter. Regionförslagsmodellen är förutbildad på objektdetekteringsdatauppsättningar på grund av att utnyttja kunskap över flera domäner. Till skillnad från vissa andra uppmärksamhetsmekanismer använder båda modellerna dessutom enpassad uppmärksamhet med upp-ned-mekanismen.

Snabbare R-CNN (fig 5a) används för extraktion av bildfunktioner. Snabbare R-CNN är en objektdetekteringsmodell som är utformad för att identifiera objekt som tillhör vissa klasser och lokalisera dem med avgränsande rutor. Snabbare R-CNN detekterar objekt i två steg.

Den första etappen, som beskrivs som ett regionförslagsnätverk (RPN), förutspår objektförslag. Med hjälp av giriga icke-maximala undertryckningar med en gränsöverskridande över-union (IoU) tröskel, väljs de översta förslagen som input till den andra etappen.

I det andra steget används pooling av intresse (RoI) för att extrahera en liten funktionskarta (t.ex. 14 × 14) för varje lådförslag. Dessa funktionskartor satsas sedan ihop som inmatning till de sista lagren i CNN. Således består den slutliga modellutmatningen av en softmax-fördelning över klassetiketter och klassspecifika begränsningsboxförbättringar för varje boxförslag. Schemat är hämtat från officiell affisch.

Snabbare R-CNN-modell för bildannotering

Med tanke på bildfunktionerna V använder den föreslagna bildtextsmodellen en ”mjuk” uppmärksamhetsmekanism uppifrån och ned för att väga varje funktion under bildtextgenerering. Detta är LSTM med en extra uppmärksamhetsmekanism. På. Detta är LSTM med en extra uppmärksamhetsmekanism. På en hög nivå består bildtexten av två LSTM -lager.

Meshed-minne transformatormodell för bildtextning

En annan modell som vi tog för att lösa bildtexten är Meshed-minne transformator. Den består av kodare och avkodare delar. Båda är gjorda av högar med uppmärksamma lager. Kodaren inkluderar också frammatningsskikt, och avkodaren har en lärbar mekanism med viktning.

Bildområden kodas på flera nivåer. Modellen tar hänsyn till både låg- och högnivårelationer. Inlärd kunskap kodas som minnesvektorer. Lager av kodare och avkodare delar är anslutna i en maskliknande struktur. Avkodaren läser från utsignalen från varje kodande lager och utför självuppmärksamhet på ord och korsar övergripande kodande lager efter det att resultaten moduleras och summeras.

Så modellen kan inte bara använda bildens visuella innehåll utan också en förkunskap om kodaren. Scheman är hämtade från officiellt papper.

Schema för AI-bildtext Schema för AI-bildtextning med Meshed-Memory Transformer-modell
Schema för bildtextning av AI med Meshed-Memory Transformer-modell

Jämförelse av två modeller för bildtexter

Baserat på vår forskning kan vi jämföra Up-down-modellen och M2transform-modellen, eftersom de utbildades på samma data. Tabellen nedan ger en sammanfattning av båda modellerna.

Tabell - Utvärderingsstatistik

BLEU1 BLEU2 Cider RÖD METEOR
UpDown -modell 0.8 0.358 1.16 0.573 0.275
M2Transformator 0.8078 0.3834 1.278 0.58 0.2876

Tabell - slutsatsstid och minne

Tid Minne
CPU GPU CPU GPU
Uppdaterad modell 104.47s 17s 1479mb 1181mb
M2Transformator 23 m 32 s 3 m 16s 1423mb 1310mb

Bildtext: Resultatanalys och framtidsutsikter

Båda använda modellerna visade ganska bra resultat. Med deras hjälp kan vi generera meningsfulla bildtexter för de flesta bilderna från vår dataset. Tack vare funktionen som extraherar med Faster-RCNN, förutbildad på den enorma Visual Genome-datauppsättningen, kan modellen känna igen många objekt och handlingar från människors vardag och därför beskriva dem korrekt.

Vad är skillnaden?

Updown -modellen är snabbare och lättare än M2Transformer. Anledningen är att M2Transformatorn använder fler tekniker, till exempel ytterligare ("meshade") anslutningar mellan kodare och avkodare, och minnesvektorer för att komma ihåg tidigare erfarenheter. Dessa modeller använder också olika uppmärksamhetsmekanismer.

Uppdaterad uppmärksamhet kan utföras i ett enda pass, medan uppmärksamhet med flera huvuden som används i M2Transformer bör köras parallellt flera gånger. Enligt de erhållna mätvärdena uppnådde dock M2Transormer bättre resultat. Med dess hjälp kan vi generera mer korrekta och varierade bildtexter. M2Transformer -förutsägelser innehåller färre felaktigheter i beskrivningen både för bilder från datamängden och för några andra relaterade bilder. Därför utför den huvuduppgiften bättre.

Vi jämförde två modeller, men det finns också andra tillvägagångssätt för uppgiften att bildtexter. Det är möjligt att byta avkodare och kodare, använda olika ordvektorer, kombinera datamängder och tillämpa överföringsinlärning.

Modellen kan förbättras för att uppnå bättre resultat som är lämpliga för just den verksamheten, antingen som en applikation för personer med synproblem eller som ytterligare verktyg inbäddade i e-handelsplattformar. För att uppnå detta mål bör modellen utbildas i relevanta datamängder. Till exempel, för ett system för att korrekt beskriva tyg, är det bättre att köra utbildning om datamängder med kläder.

PlatoAi. Web3 Reimagined. Datainformation förstärkt.
Klicka här för att komma åt.

Källa: https://www.iotforall.com/deep-learning-image-captioning-technology-for-business-applications

plats_img

Senaste intelligens

plats_img