شعار زيفيرنت

يتيح EMO لصورك التحدث

التاريخ:

هل تمنيت يومًا أن تتمكن صورك الثابتة من التحدث أو الغناء؟ تعرف على EMO، وهو اختصار لـ Emote Portrait Alive. تم تطوير EMO من قبل باحثين في معهد علي بابا للحوسبة الذكية، وهو نظام ذكاء اصطناعي مصمم للقيام بذلك.

تتبع EMO أسلوبًا فريدًا في الرسوم المتحركة، متجاوزة النماذج ثلاثية الأبعاد المعقدة عن طريق تحويل الصوت مباشرة إلى إطارات فيديو. وهذا يعني أن مقاطع الفيديو المتحركة الخاصة بك تحتفظ بالحركات الطبيعية وتعبيرات الكلام أو الأغنية، كل ذلك من صورة واحدة ومقطع صوتي واحد.

تعرف على EMO، بحث Alibaba AI الذي أحدث ثورة في الرسوم المتحركة للصور! بدءًا من الصور الثابتة وحتى الكلام أو الأغنية، يمكن لتطبيق Emote Portrait Alive التعامل مع كل شيء.
EMO، أو Emote Portrait Alive، هو نظام ذكاء اصطناعي لتحريك الصور الشخصية الثابتة (الصورة الائتمان)

علي بابا AI: ما هو Emote Portrait Alive (EMO)؟

EMO، أو Emote Portrait Alive، هو نظام ذكاء اصطناعي تم تطويره من قبل باحثين في معهد علي بابا للحوسبة الذكية. وظيفتها الأساسية هي تحريك الصور الشخصية الثابتةإنشاء مقاطع فيديو يظهر فيها الموضوع وهو يتحدث أو يغني بشكل واقعي.

ما يميز EMO عن غيرها هو أسلوبها في إنشاء هذه الرسوم المتحركة. بدلاً من الاعتماد على الأساليب التقليدية التي غالباً ما تكافح لالتقاط الفروق الدقيقة في التعبير البشري، تقوم EMO مباشرة بتحويل أشكال الموجات الصوتية إلى إطارات فيديو. وهذا يعني أنها لا تحتاج إلى نماذج ثلاثية الأبعاد متوسطة أو معالم للوجه لإنشاء الرسوم المتحركة. وبدلاً من ذلك، فهو يركز على التقاط حركات الوجه الدقيقة وأنماط الوجه الفردية المرتبطة بالكلام الطبيعي.

تعتمد تقنية EMO التي تعمل بالطاقة على نموذج الانتشار المعروف بقدرته على إنشاء صور اصطناعية واقعية. لتدريب النظام، استخدم الباحثون مجموعة كبيرة من مقاطع الفيديو الناطقة من مصادر مختلفة، بما في ذلك الخطب والأفلام والبرامج التلفزيونية والعروض الموسيقية. يمكّن هذا التدريب المكثف EMO من إنتاج مقاطع فيديو عالية الجودة مع الحفاظ على هوية الموضوع ونقل التعبير.

بالإضافة إلى إنشاء مقاطع فيديو للمحادثة، يمكن لـ EMO أيضًا تحريك الصور الغنائية. يمكن أن تؤدي مزامنة أشكال الفم وتعبيرات الوجه مع الغناء إلى إنشاء مقاطع فيديو غنائية بأنماط ومدد مختلفة.

تعرف على EMO، بحث Alibaba AI الذي أحدث ثورة في الرسوم المتحركة للصور! بدءًا من الصور الثابتة وحتى الكلام أو الأغنية، يمكن لتطبيق Emote Portrait Alive التعامل مع كل شيء.
(الصورة الائتمان)

في حين أن تطوير EMO يقدم إمكانيات مثيرة لإنشاء محتوى فيديو مخصص، فإنه يثير أيضًا مخاوف أخلاقية. هناك خطر سوء الاستخدام، مثل التمثيل أو انتشار معلومات خاطئة. لذلك، من الضروري التعامل مع نشر هذه التكنولوجيا بحذر والتأكد من وجود الضمانات المناسبة لمعالجة هذه المخاوف الأخلاقية.


بيكا الشفاه مزامنة يجعل مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي تتحدث أيضًا


كيف يعمل الإيمو؟

يعمل نظام EMO على مرحلتين رئيسيتين: عملية تشفير الإطارات ونشرها.

  • ترميز الإطارات: يستخرج الميزات من الصور المرجعية وإطارات الحركة لإنشاء الأساس للرسوم المتحركة.
  • عملية الانتشار: يستخدم برنامج تشفير الصوت الذي تم تدريبه مسبقًا لمعالجة إدخال الصوت. فهو يدمج أقنعة منطقة الوجه مع ضوضاء متعددة الإطارات لإنشاء الرسوم المتحركة. تقوم شبكة Backbone Network بتشويش الرسوم المتحركة، بمساعدة آليات الانتباه المرجعي والانتباه الصوتي. الوحدات الزمنية تضبط سرعة الحركة.

ماذا يمكنك أن تفعل مع ايمو؟

تقدم EMO أداة متعددة الاستخدامات لإنشاء مقاطع فيديو متحركة نابضة بالحياة، وتوسيع إمكانيات إنشاء محتوى مخصص ومعبر، مثل:

  • الغناء: يُنشئ مقاطع فيديو رمزية صوتية مع تعبيرات وجه معبرة متزامنة مع مدخلات الصوت الغنائية.
تعرف على EMO، بحث Alibaba AI الذي أحدث ثورة في الرسوم المتحركة للصور! بدءًا من الصور الثابتة وحتى الكلام أو الأغنية، يمكن لتطبيق Emote Portrait Alive التعامل مع كل شيء.
يتجاوز EMO النماذج ثلاثية الأبعاد عن طريق تحويل الصوت مباشرة إلى إطارات فيديو (الصورة الائتمان)
  • اللغة والأسلوب: يدعم اللغات المتنوعة وأنماط الصور الشخصية، ويلتقط الاختلافات النغمية للرسوم المتحركة الديناميكية للصورة الرمزية.
  • إيقاع سريع: يضمن مزامنة الرسوم المتحركة للشخصية مع إيقاعات سريعة الخطى.
  • الحديث: يقوم بتحريك الصور الشخصية استجابةً للإدخالات الصوتية المنطوقة بلغات وأنماط مختلفة.
  • الأداء عبر الممثل: يصور شخصيات من الأفلام أو الوسائط الأخرى في سياقات متعددة اللغات ومتعددة الثقافات.

باختصار، يعد EMO، المعروف أيضًا باسم Emote Portrait Alive، تقدمًا كبيرًا في تكنولوجيا الرسوم المتحركة. يمكنه تحويل الصور الثابتة إلى مقاطع فيديو مفعمة بالحيوية حيث يبدو الأشخاص وهم يتحدثون أو يغنون بشكل واقعي. يحقق EMO ذلك عن طريق تحويل الصوت مباشرة إلى إطارات فيديو، والتقاط تعابير الوجه وحركاته بدقة. في حين توفر EMO إمكانيات مثيرة لإنشاء محتوى مرئي ديناميكي، يجب معالجة المخاوف الأخلاقية بشأن إساءة استخدامه المحتملة. ومع ذلك، تقدم EMO أداة قيمة لإضفاء الحيوية على الصور الثابتة ويمكن أن تغير طريقة تفاعلنا مع الوسائط المرئية في المستقبل.

لمزيد من المعلومات التفصيلية ، هنا هي ورقتها البحثية.

رصيد الصورة المميز: EMO: بحث Emote Portrait Alive

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة