شعار زيفيرنت

افضل مؤخرا

اسأل أحد خبراء Techspert: كيف تحول Lens الصور إلى نص؟ اسأل أحد المتخصصين في Techspert: كيف يحول Lens الصور إلى نص؟

عندما كنت في عطلة مؤخرًا ، كنت أرغب في تدوين ملاحظات من كتاب إلكتروني كنت أقرأه. ولكن بدلاً من تدوين الملاحظات الصوتية أو خربشة الأشياء في دفتر ملاحظات ، استخدمت Lens لتحديد قسم من الكتاب ونسخه ولصقه في مستند. جعلني ذلك أشعر بالفضول: كيف حدث كل هذا على هاتفي؟ كيف تتعرف الكاميرا على الكلمات بجميع خطوطها ولغاتها؟

قررت الوصول إلى جذر السؤال والتحدث إلى آنا ماناسوفسكا ، مهندسة برمجيات مقرها زيورخ وأحد موظفي Google في الصف الأول لتحويل الصورة إلى نص.

آنا ، أخبرنا عن عملك في Lens.

أنا منخرط في جانب النص ، لذا تأكد من أن التطبيق يمكنه تمييز النص ونسخه للبحث أو ترجمته - دون الحاجة إلى الكتابة. على سبيل المثال ، إذا وجهت كاميرا هاتفك إلى ملصق بلغة أجنبية ، فيمكن للتطبيق ترجمة النص الموجود عليه. وبالنسبة للأشخاص المكفوفين وضعاف البصر ، يمكنهم قراءة النص بصوت عالٍ. إنه أمر مثير للإعجاب.

لذا فإن جزءًا مما يفعله فريقي هو جعل Lens يتعرف ليس فقط على النص ، ولكن أيضًا على بنية النص. نحن البشر نفهم تلقائيًا الكتابة المنفصلة إلى جمل وفقرات ، أو كتل وأعمدة ، ونعرف ما يتماشى معًا. من الصعب جدًا على الآلة تمييز ذلك ، على الرغم من ذلك.

هل هذا تعلم الآلة؟

نعم. بمعنى آخر ، يستخدم أنظمة (نسميها نماذج) قمنا بتدريبها على تمييز الشخصيات والبنية في الصور. لن يكون لنظام الحوسبة التقليدية سوى قدرة محدودة على القيام بذلك. ولكن تم تصميم نموذج التعلم الآلي الخاص بنا "لتعليم نفسه" على مجموعات بيانات هائلة ويتعلم كيفية تمييز هياكل النص بنفس الطريقة التي يقوم بها الإنسان.

هل يمكن للنظام العمل بلغات مختلفة؟

نعم ، يمكنه التعرف على 30 نصًا ، بما في ذلك السيريلية والديفاناغارية والصينية والعربية. إنها أكثر دقة في لغات الأبجدية اللاتينية في الوقت الحالي ، ولكن حتى هناك ، فإن العديد من أنواع الخطوط المختلفة تمثل تحديات. اليابانية والصينية صعبة لأن لديهم الكثير من الفروق الدقيقة في الشخصيات. ما يبدو أنه اختلاف بسيط بالنسبة للعين غير المدربة يمكن أن يغير المعنى تمامًا.

ما هو الجزء الأكثر تحديا في عملك؟

هناك الكثير من التعقيد والغموض ، مما يمثل تحديًا ، لذلك كان علي أن أتعلم كيفية التنقل في ذلك. وهو يسير بخطى سريعة. الأشياء تتحرك باستمرار وعليك طرح الكثير من الأسئلة والتحدث إلى الكثير من الناس للحصول على الإجابات التي تحتاجها.

عندما يتعلق الأمر بالترميز الفعلي ، ماذا يتضمن ذلك؟

في الغالب أستخدم لغة برمجة تسمى C ++ ، والتي تمكنك من تشغيل خطوات المعالجة اللازمة لنقلك من صورة إلى تمثيل الكلمات والبنية.

هممم ، أنا نوعا ما أفهم. كيف تبدو؟

لقطة شاشة لبعض أكواد C ++ على خلفية بيضاء.

هذا ما تبدو عليه لغة ++ C.

يوضح الكود أعلاه معالجة استخراج اللغة الألمانية فقط من قسم من النص. لنفترض أن الصورة أظهرت الألمانية والفرنسية والإيطالية - فقط الألمانية سيتم استخراجها للترجمة. هل هذا منطقي؟

نوعا من! قل لي ما الذي تحبه في عملك.

يتلخص ذلك في حبي الدائم لحل المشكلات. لكنني أيضًا أحب حقًا أنني أبني شيئًا يمكنني استخدامه في حياتي اليومية. أنا مقيم في زيورخ ولكني لا أتحدث الألمانية جيدًا ، لذلك أستخدم Lens للترجمة إلى الإنجليزية يوميًا.

فك تشفير ما يفعله المبرمجون: تعمل Ana في Lens ، مع التركيز على التعرف على النص. ولكن ما الذي يتضمنه ذلك في الواقع؟

10 حيل زيل الشائعة - وكيفية تجنبها

يستخدم المحتالون أساليب مختلفة لفصل الأشخاص عن الأموال التي حصلوا عليها بشق الأنفس في Zelle. إليك كيفية الحفاظ على أمان أموالك أثناء استخدام ...

Binance مقابل Bybit 2023: ما هو التبادل الأفضل لتداول العملات المشفرة؟

مرحبًا بـ cryptonaut ، في مقال آخر في سلسلتنا مقابل سلسلة حيث نقارن بين بعض أفضل البورصات للمساعدة ...

مشكلات يجب مراقبتها أثناء تعامل منظم الإعلانات النيجيري مع Meta

أصبحت صناعة الإعلان والتسويق في نيجيريا ، التي لطالما كانت هناك صرخة من الإفراط في التنظيم ، مثقلة بمزيد من اللوائح. ال...

Bitget vs Bybit 2023: مقارنة تبادلات التشفير!

مع وجود العديد من عمليات تبادل العملات المشفرة للاختيار من بينها ، فإن العثور على الصرافة الصحيحة ليس دائمًا مهمة سهلة. العديد من العملات المشفرة ...

وأوضح تكلفة الطاقة

لماذا ارتفعت تكلفة الطاقة لمنازلنا كثيرًا؟ لماذا أثر ارتفاع أسعار الغاز الطبيعي على تكلفة الكهرباء؟ مرحبًا بكم في عالم اقتصاديات الطاقة الرائع ، الموضح ببساطة قدر المستطاع!

المجموعة الاستشارية الكورية - الأمريكية لاستراتيجية الردع الموسعة والمجموعة الاستشارية: التقييم والقضايا

في 16 سبتمبر ، عُقد اجتماع المجموعة الاستشارية لاستراتيجية الردع الموسعة للولايات المتحدة وكوريا الجنوبية (EDSCG) في وزارة الخارجية الأمريكية ...

معالجة مشكلة الثقة في إدارة سلسلة التوريد

ملاحظة المؤلف: ما يلي مقتطف من العرض التقديمي الذي قدمته مؤخرًا في ندوة البضائع الخطرة لشركة LabelMaster 2022 بعنوان "معالجة مشكلة الثقة ...

العهد الأرجواني: طعم حلو للراحة لكادبوري في المحكمة العليا

تم استئناف النزاع المستمر ، الذي أثارته شركة نستله في الأصل ، حول تطبيقات علامة Cadbury التجارية للون البنفسجي. السيد القاضي ميد من العلي ...

15 أداة تسويق رقمية لاستخدامها في عام 2022 - منصة أفضل لعصير الليمون

يمكن أن يتيح لك العثور على أفضل أدوات التسويق الرقمي نقل عملك إلى المستوى التالي. سواء كنت تبحث عن أدوات للبريد الإلكتروني ...

التحليل التنظيمي والتشريعي # 5

30 سبتمبر 2022 روبرت تريانو التحليل التنظيمي والتشريعي - الولايات المتحدة صدرت تقارير مختلفة استجابة للأمر التنفيذي في مارس 2022 للتطوير المسؤول ...

Stogie T: هيب هوب ، IP وكل موسيقى الجاز

سبتمبر 2022 بقلم كاثرين جيويل ، قسم المعلومات والتواصل الرقمي وإدوارد هاريس ، قسم الأخبار والإعلام ، الويبو في عام 2016 ، قام فنان الهيب هوب الجنوب أفريقي الرائد ...

أحدث المعلومات الاستخباراتية

بقعة_صورة
بقعة_صورة