לוגו זפירנט

למידת עומק טכנולוגיית כיתוב תמונות ליישומים עסקיים

תאריך:

טכנולוגיית כיתוב תמונה ללמידה עמוקה עבור יישומים עסקיים
איור: © IoT לכולם

טכנולוגיות המיושמות להפיכת רצף הפיקסלים המתוארים בתמונה למילים באמצעות בינה מלאכותית אינן גולמיות כמו לפני חמש שנים או יותר. ביצועים, דיוק ואמינות טובים יותר מאפשרים כיתוב תמונה חלק ויעיל בתחומים שונים - ממדיה חברתית ועד מסחר אלקטרוני. היצירה האוטומטית של תגים מתכתבת עם תמונה שהורדת. טכנולוגיה זו יכולה לעזור לעיוורים לגלות את העולם סביבם.

מאמר זה עוסק במקרים של שימוש בטכנולוגיית כיתוב תמונה, המבנה הבסיסי שלה, היתרונות והחסרונות. כמו כן, אנו פורסים מודל המסוגל ליצור תיאור משמעותי של מה שמוצג בתמונת הקלט.

כמטרה בשפת חזון, ניתן לפתור כיתוב תמונה בעזרת ראייה ממוחשבת ו-NLP. חלק ה-AI כולל CNNs (רשתות עצביות מפותלות) ו-RNNs (רשתות עצביות חוזרות) או כל מודל ישים כדי להגיע ליעד.

לפני שנעבור לפרטים הטכניים, בואו נגלה היכן עומד כיתוב תמונה.

מקרי שימוש מונעי בינה מלאכותית תיוג תמונה ותיאור

"כיתוב תמונה הוא אחת מיכולות הליבה של ראייה ממוחשבת שיכולה לאפשר מגוון רחב של שירותים", אמר קסואדונג הואנג, עמית טכני של מיקרוסופט וה-CTO של Azure AI Cognitive Services ברדמונד, וושינגטון.

יש לו נקודה שכן יש כבר את ההיקף העצום של תחומים לטכנולוגיית כיתוב תמונה, כלומר: תיוג תמונות למסחר אלקטרוני, שירותי שיתוף תמונות וקטלוגים מקוונים.

במקרה זה, מתבצעת יצירה אוטומטית של תגים לפי תמונה. לדוגמה, זה יכול לפשט את חיי המשתמשים כשהם מעלים תמונה לקטלוג מקוון. במקרה הזה, AI מזהה את התמונה ויוצר תכונות - אלה יכולות להיות חתימות, קטגוריות או תיאורים. הטכנולוגיה יכולה גם לקבוע את סוג הפריט, החומר, הצבע, הדפוס והתאמת הבגדים לחנויות מקוונות.

במקביל, ניתן ליישם כיתוב תמונה על ידי שירות שיתוף תמונות או כל קטלוג מקוון כדי ליצור תיאור אוטומטי משמעותי של התמונה למטרות SEO או סיווג. יתרה מכך, כתוביות מאפשרות לבדוק האם התמונה מתאימה לחוקי הפלטפורמה שבה היא עומדת להתפרסם. כאן הוא משמש כחלופה לסיווג CNN ועוזר להגדיל את התנועה וההכנסות.

הערה: יצירת תיאורים לסרטונים היא משימה הרבה יותר מסובכת. ובכל זאת, מצב הטכנולוגיה הנוכחי כבר מאפשר זאת.

הערות תמונה אוטומטיות לעיוורים

כדי לפתח פתרון כזה, עלינו להמיר את התמונה לטקסט ולאחר מכן לקול. אלו שני יישומים ידועים של טכנולוגיית Deep Learning.

אפליקציה שנקראת לראות AI שפותחה על ידי מיקרוסופט מאפשרת לאנשים עם בעיות עיניים לראות את העולם סביבם באמצעות סמארטפונים. התוכנית יכולה לקרוא טקסט כאשר המצלמה מכוונת אליו ונותנת הנחיות קוליות. הוא יכול לזהות גם טקסט מודפס וגם טקסט בכתב יד, כמו גם לזהות אובייקטים ואנשים.

Google הציג גם כלי שיכול ליצור תיאור טקסט לתמונה, המאפשר לעיוורים או לסובלים מבעיות ראייה להבין את ההקשר של התמונה או הגרפיקה. כלי למידת מכונה זה מורכב ממספר רבדים. הדגם הראשון מזהה טקסט וספרות בכתב יד בתמונה. ואז מודל אחר מזהה אובייקטים פשוטים של העולם הסובב - כמו מכוניות, עצים, בעלי חיים וכו'. ושכבה שלישית היא מודל מתקדם המסוגל לגלות את הרעיון המרכזי בתיאור הטקסטואלי המלא.

כיתוב תמונה בינה מלאכותית עבור מדיה חברתית

כיתוב תמונה שנוצר בעזרת כלי מבוסס בינה מלאכותית כבר זמין לפייסבוק ולאינסטגרם. בנוסף, המודל הופך חכם יותר כל הזמן, לומד לזהות אובייקטים, פעולות ודפוסים חדשים.

פייסבוק יצרה מערכת שמסוגלת ליצור תיאורי טקסט Alt לפני כמעט חמש שנים. כיום, זה הפך מדויק יותר. בעבר היא תיארה תמונה באמצעות מילים כלליות, אך כעת מערכת זו יכולה ליצור תיאור מפורט.

זיהוי לוגו עם AI

טכנולוגיית כיתוב תמונה נפרסת גם עם טכנולוגיות AI אחרות. לדוגמה, DeepLogo היא רשת עצבית המבוססת על TensorFlow Object Detection API. והוא יכול לזהות לוגוטיפים. שם הלוגו המזוהה מופיע ככיתוב על התמונה. ה מחקר על מודל סינתזת לוגוטייפ מבוסס GAN יכול להביא אור לאופן שבו עובדי GAN.

מחקר מודלים של למידה עמוקה עבור כיתוב תמונה

יישמנו מודל שיוצר תיאור טקסט משמעותי לתמונות, תוך התחשבות במקרי שימוש אפשריים. לדוגמה, הכיתוב יכול לתאר פעולה ואובייקטים שהם האובייקטים העיקריים בכל תמונה. לצורך הדרכה, השתמשנו במערך הנתונים של Microsoft COCO 2014.

מערך הנתונים של COCO הוא מערך נתונים של זיהוי אובייקטים, פילוח וכתוביות בקנה מידה גדול. הוא מכיל כ-1.5 מיליון חפצים שונים המחולקים ל-80 קטגוריות. לכל תמונה יש הערות בחמש כיתובים שנוצרו על ידי אדם.

הגשנו בקשה האימונים, האימות וחלוקת המבחנים של אנדריי קרפתי לחלוקת מערכי נתונים לאימון, אימות ובדיקה של חלקים. כמו כן, היינו צריכים מדדים כמו BLEU, ROUGE, METEOR, CIDEr, SPICE, כדי להעריך תוצאות.

השוואת דגמי ML עבור כיתוב תמונה

בדרך כלל, ארכיטקטורת בסיס עבור כיתוב תמונה מקודדת את הקלט לצורה קבועה ומפענחת אותו, מילה אחר מילה, לרצף.

המקודד מקודד את תמונת הקלט עם שלושה ערוצי צבע להדפסה קטנה יותר עם ערוצים "נלמדים". תמונה מקודדת קטנה יותר זו היא ייצוג סיכום של כל מה שמועיל בתמונה המקורית. עבור קידוד, ניתן ליישם כל ארכיטקטורת CNN. כמו כן, אנו יכולים להשתמש בלימוד העברה עבור חלק המקודד.

המפענח מסתכל על התמונה המקודדת ומייצר כיתוב מילה אחר מילה. לאחר מכן, כל מילה חזויה משמשת ליצירת המונח הבא.

לפני שתתקדם, תסתכל על מה שקיבלנו כתוצאה מיצירת המודל והבדיקה עם דגם השנאי Meshed-Memory.

דוגמה לשימוש במודל למידה עמוקה לכיתוב תמונה
דוגמה לשימוש במודל למידה עמוקה לכיתוב תמונה
דוגמה לשימוש במודל למידה עמוקה לכיתוב תמונה

כיתוב תמונה מבוסס AI

למדנו גם דוגמאות שהובילו לטעויות. ישנן מספר סיבות מדוע מופיעות שגיאות. הטעויות הנפוצות ביותר הן איכות תמונה ירודה והיעדר אלמנטים מסוימים במערך הנתונים הראשוני. המודל הוכשר על מערך נתונים עם תמונות כלליות, כך שהוא עושה טעויות כאשר הוא אינו יודע את התוכן או אינו יכול לזהות אותו כראוי. כך פועל המוח האנושי.

שגיאות שנעשו על ידי כיתוב תמונה בינה מלאכותית
שגיאה שנעשתה על ידי דגם כיתוב תמונה בינה מלאכותית

הנה מקרה נוסף כדי להמחיש כיצד פועלות רשתות עצביות. לא היו נמרים במודל מערך הנתונים. במקום זאת, בינה מלאכותית בחרה את האובייקט הקרוב ביותר שהיא מכירה - זה די זהה, מכיוון שהמוח שלנו מתמודד עם הלא נודע.

רשתות עצביות מפעילות כיתוב אובייקטים לא ידועים

מודל תשומת לב למעלה-למטה עבור כיתוב תמונה

זהו הדגם הראשון להשוואה. מנגנון Up-Down משלב את Bottom-Up ומנגנון הקשב של Top-Down.

R-CNN מהיר יותר משמש ליצירת הקשר בין זיהוי אובייקט למשימות כיתוב תמונה. מודל הצעת האזור מאומן מראש על מערכי נתונים לזיהוי אובייקטים עקב מינוף ידע חוצה תחומים. יתרה מכך, בניגוד לכמה מנגנוני קשב אחרים, שני הדגמים משתמשים בקשב במעבר אחד עם מנגנון Up-Down.

R-CNN מהיר יותר (איור 5a) משמש לחילוץ תכונות תמונה. Faster R-CNN הוא מודל זיהוי אובייקטים שנועד לזהות אובייקטים השייכים למחלקות מסוימות ולמקם אותם באמצעות תיבות תוחמות. מהיר יותר R-CNN מזהה עצמים בשני שלבים.

השלב הראשון, המתואר כרשת הצעות אזורית (RPN), מנבא הצעות לאובייקטים. באמצעות דיכוי חמדני שאינו מקסימלי עם סף צומת-על-איחוד (IoU), הצעות התיבה העליונה נבחרות כקלט לשלב השני.

בשלב השני, איחוד אזורי עניין (RoI) משמש כדי לחלץ מפת תכונה קטנה (למשל 14×14) עבור כל הצעת תיבה. מפות תכונה אלה נקבצות יחד כקלט לשכבות הסופיות של CNN. לפיכך, הפלט הסופי של הדגם מורכב מהתפלגות softmax על תוויות מחלקות וחידוד תיבה תוחמת ספציפית לכיתה עבור כל הצעת תיבה. התוכנית לקוחה מה- פוסטר רשמי.

דגם R-CNN מהיר יותר להערת תמונה

בהינתן תכונות תמונה V, מודל הכתוביות המוצע משתמש במנגנון תשומת לב 'רך' מלמעלה למטה כדי לשקול כל תכונה במהלך יצירת הכתוביות. זהו LSTM עם מנגנון קשב נוסף למעלה למטה. עַל. זהו LSTM עם מנגנון קשב נוסף למעלה למטה. ברמה גבוהה, מודל הכיתוב מורכב משתי שכבות LSTM.

דגם Meshed-Memory Transformer עבור כיתוב תמונה

מודל נוסף שלקחנו כדי לפתור את משימת כיתוב התמונה הוא Meshed-Memory Transformer. הוא מורכב מחלקי מקודד ומפענח. שניהם עשויים מערימות של שכבות קשובות. המקודד כולל גם שכבות הזנה קדימה, ולמפענח יש מנגנון שניתן ללמוד עם שקלול.

אזורי התמונה מקודדים בצורה מרובת רמות. המודל לוקח בחשבון גם יחסים ברמה נמוכה וגם ברמה גבוהה. ידע נלמד מקודד כווקטורי זיכרון. שכבות של חלקי מקודד ומפענח מחוברות במבנה דמוי רשת. המפענח קורא מהפלט של כל שכבת קידוד ומבצע תשומת לב עצמית למילים ומשכבות קידוד כוללות של תשומת לב, לאחר שהתוצאות מאופנות ומסכמות.

אז, המודל יכול להשתמש לא רק בתוכן החזותי של התמונה אלא גם בידע מוקדם של המקודד. התוכניות לקוחות מה- עיתון רשמי.

סכימה עבור כיתוב תמונה בינה מלאכותית סכימה עבור כיתוב תמונה בינה מלאכותית עם דגם Meshed-Memory Transformer
סכימה עבור כיתוב תמונה בינה מלאכותית עם דגם Meshed-Memory Transformer

השוואה בין שני דגמים לכיתוב תמונה

בהתבסס על המחקר שלנו, אנו מסוגלים להשוות את מודל Up-down ומודל M2transform, שכן הם אומנו על אותם נתונים. הטבלה שלהלן מספקת סיכום של שני הדגמים.

טבלה – מדדי הערכה

BLEU1 BLEU2 סיידר אדום מטאור
דגם UpDown 0.8 0.358 1.16 0.573 0.275
M2Transformer 0.8078 0.3834 1.278 0.58 0.2876

טבלה - זמן מסקנות וזיכרון

זְמַן זכרון
CPU GPU CPU GPU
דגם Updown 104.47s 17s 1479mb 1181mb
M2Transformer 23 מ '32 ש' 3m 16s 1423mb 1310mb

כיתוב תמונה: ניתוח תוצאות וצפי עתידי

שני הדגמים המשומשים הראו תוצאות טובות למדי. בעזרתם, נוכל ליצור כיתובים משמעותיים עבור רוב התמונות ממערך הנתונים שלנו. יתרה מכך, הודות לתכונה המיצוי מראש עם Faster-RCNN, שהוכשרה מראש על מערך הנתונים העצום של הגנום החזותי, המודל יכול לזהות אובייקטים ופעולות רבות מחיי היומיום של אנשים ולכן לתאר אותם בצורה נכונה.

מה ההבדל?

דגם ה-Updown מהיר וקל משקל יותר מה-M2Transformer. הסיבה היא שה-M2Transformer משתמש בטכניקות נוספות, כמו חיבורים נוספים ("מרושתים") בין מקודד למפענח, ווקטורי זיכרון לזכירת חווית העבר. כמו כן, מודלים אלה משתמשים במנגנונים שונים של תשומת לב.

תשומת לב למעלה יכולה להתבצע במעבר אחד, בעוד שתשומת לב רב-ראשית המשמשת ב-M2Transformer צריכה לפעול במקביל מספר פעמים. עם זאת, על פי המדדים שהושגו, M2Transormer השיג תוצאות טובות יותר. בעזרתו נוכל לייצר כיתובים נכונים ומגוונים יותר. תחזיות M2Transformer מכילות פחות אי דיוקים בתיאור הן עבור תמונות ממערך הנתונים והן עבור כמה תמונות קשורות אחרות. לכן, הוא מבצע את המשימה העיקרית טוב יותר.

השווינו בין שני דגמים, אבל יש גם גישות אחרות למשימה של כיתוב תמונה. אפשר לשנות מפענח ומקודד, להשתמש בוקטורי מילים שונים, לשלב מערכי נתונים וליישם למידת העברה.

ניתן לשפר את המודל כדי להשיג תוצאות טובות יותר המתאימות לעסק המסוים, בין אם כאפליקציה לאנשים עם בעיות ראייה או ככלים נוספים המוטמעים בפלטפורמות מסחר אלקטרוני. כדי להשיג מטרה זו, יש לאמן את המודל על מערכי נתונים רלוונטיים. לדוגמה, כדי שמערכת תתאר נכון את הבד, עדיף להפעיל אימון על מערכי נתונים עם בגדים.

PlatoAi. Web3 מחדש. מודיעין נתונים מוגבר.
לחץ כאן לגישה.

מקור: https://www.iotforall.com/deep-learning-image-captioning-technology-for-business-applications

ספוט_ימג

המודיעין האחרון

ספוט_ימג

דבר איתנו

שלום שם! איך אני יכול לעזור לך?