عندما كنت في عطلة مؤخرًا ، كنت أرغب في تدوين ملاحظات من كتاب إلكتروني كنت أقرأه. ولكن بدلاً من تدوين الملاحظات الصوتية أو خربشة الأشياء في دفتر ملاحظات ، استخدمت Lens لتحديد قسم من الكتاب ونسخه ولصقه في مستند. جعلني ذلك أشعر بالفضول: كيف حدث كل هذا على هاتفي؟ كيف تتعرف الكاميرا على الكلمات بجميع خطوطها ولغاتها؟
قررت الوصول إلى جذر السؤال والتحدث إلى آنا ماناسوفسكا ، مهندسة برمجيات مقرها زيورخ وأحد موظفي Google في الصف الأول لتحويل الصورة إلى نص.
آنا ، أخبرنا عن عملك في Lens.
أنا منخرط في جانب النص ، لذا تأكد من أن التطبيق يمكنه تمييز النص ونسخه للبحث أو ترجمته - دون الحاجة إلى الكتابة. على سبيل المثال ، إذا وجهت كاميرا هاتفك إلى ملصق بلغة أجنبية ، فيمكن للتطبيق ترجمة النص الموجود عليه. وبالنسبة للأشخاص المكفوفين وضعاف البصر ، يمكنهم قراءة النص بصوت عالٍ. إنه أمر مثير للإعجاب.
لذا فإن جزءًا مما يفعله فريقي هو جعل Lens يتعرف ليس فقط على النص ، ولكن أيضًا على بنية النص. نحن البشر نفهم تلقائيًا الكتابة المنفصلة إلى جمل وفقرات ، أو كتل وأعمدة ، ونعرف ما يتماشى معًا. من الصعب جدًا على الآلة تمييز ذلك ، على الرغم من ذلك.
هل هذا تعلم الآلة؟
نعم. بمعنى آخر ، يستخدم أنظمة (نسميها نماذج) قمنا بتدريبها على تمييز الشخصيات والبنية في الصور. لن يكون لنظام الحوسبة التقليدية سوى قدرة محدودة على القيام بذلك. ولكن تم تصميم نموذج التعلم الآلي الخاص بنا "لتعليم نفسه" على مجموعات بيانات هائلة ويتعلم كيفية تمييز هياكل النص بنفس الطريقة التي يقوم بها الإنسان.
هل يمكن للنظام العمل بلغات مختلفة؟
نعم ، يمكنه التعرف على 30 نصًا ، بما في ذلك السيريلية والديفاناغارية والصينية والعربية. إنها أكثر دقة في لغات الأبجدية اللاتينية في الوقت الحالي ، ولكن حتى هناك ، فإن العديد من أنواع الخطوط المختلفة تمثل تحديات. اليابانية والصينية صعبة لأن لديهم الكثير من الفروق الدقيقة في الشخصيات. ما يبدو أنه اختلاف بسيط بالنسبة للعين غير المدربة يمكن أن يغير المعنى تمامًا.
ما هو الجزء الأكثر تحديا في عملك؟
هناك الكثير من التعقيد والغموض ، مما يمثل تحديًا ، لذلك كان علي أن أتعلم كيفية التنقل في ذلك. وهو يسير بخطى سريعة. الأشياء تتحرك باستمرار وعليك طرح الكثير من الأسئلة والتحدث إلى الكثير من الناس للحصول على الإجابات التي تحتاجها.
عندما يتعلق الأمر بالترميز الفعلي ، ماذا يتضمن ذلك؟
في الغالب أستخدم لغة برمجة تسمى C ++ ، والتي تمكنك من تشغيل خطوات المعالجة اللازمة لنقلك من صورة إلى تمثيل الكلمات والبنية.
هممم ، أنا نوعا ما أفهم. كيف تبدو؟
هذا ما تبدو عليه لغة ++ C.
يوضح الكود أعلاه معالجة استخراج اللغة الألمانية فقط من قسم من النص. لنفترض أن الصورة أظهرت الألمانية والفرنسية والإيطالية - فقط الألمانية سيتم استخراجها للترجمة. هل هذا منطقي؟
نوعا من! قل لي ما الذي تحبه في عملك.
يتلخص ذلك في حبي الدائم لحل المشكلات. لكنني أيضًا أحب حقًا أنني أبني شيئًا يمكنني استخدامه في حياتي اليومية. أنا مقيم في زيورخ ولكني لا أتحدث الألمانية جيدًا ، لذلك أستخدم Lens للترجمة إلى الإنجليزية يوميًا.
فك تشفير ما يفعله المبرمجون: تعمل Ana في Lens ، مع التركيز على التعرف على النص. ولكن ما الذي يتضمنه ذلك في الواقع؟
لماذا ارتفعت تكلفة الطاقة لمنازلنا كثيرًا؟ لماذا أثر ارتفاع أسعار الغاز الطبيعي على تكلفة الكهرباء؟ مرحبًا بكم في عالم اقتصاديات الطاقة الرائع ، الموضح ببساطة قدر المستطاع!
سبتمبر 2022 بقلم كاثرين جيويل ، قسم المعلومات والتواصل الرقمي وإدوارد هاريس ، قسم الأخبار والإعلام ، الويبو في عام 2016 ، قام فنان الهيب هوب الجنوب أفريقي الرائد ...