شعار زيفيرنت

الموناليزا يمكنها الآن التحدث بفضل EMO

التاريخ:

قام الباحثون في معهد الحوسبة الذكية في مجموعة علي بابا بتطوير أداة ذكاء اصطناعي تعرف باسم EMO: Emote Portrait Alive، والتي تضفي الحيوية على الصور الشخصية.

تتيح الأداة للمستخدمين إضافة الصوت والفيديو إلى الصورة الثابتة. باستخدام هذه الأداة، يمكن للمرء أن يتلاعب بصورة قديمة مثل لوحة لا جيوكوندا الشهيرة لليوناردو دا فينشي، والمعروفة باسم الموناليزا، مما يجعلها تتحدث وتغني مع وضعيات الرأس والحركة وتعبيرات الوجه والمزامنة الدقيقة للشفاه.

أداة إنشاء مقاطع فيديو بورتريه معبرة تعتمد على الصوت

في تقريرهم، "EMO: Emote Portrait Alive: إنشاء مقاطع فيديو بورتريه معبرة باستخدام نموذج نشر Audio2Video في ظل ظروف ضعيفة،"  الباحثون تقديم رؤى حول أداتهم الجديدة ووظائفها وكيفية استخدامها للحصول على نتائج مثالية.

باستخدام أداة الذكاء الاصطناعي لصنع الصور الشخصية التعبيرية، يمكن للمستخدمين إنشاء مقاطع فيديو رمزية صوتية مع تعبيرات الوجه. وفقًا للباحثين، تتيح لهم الأداة إنشاء مقاطع فيديو بأي مدة “اعتمادًا على طول الصوت المُدخل”.

قال الباحثون: "أدخل صورة شخصية واحدة وصوتًا صوتيًا، مثل الغناء، ويمكن لطريقتنا إنشاء مقاطع فيديو رمزية صوتية مع تعبيرات وجه معبرة وأوضاع رأس مختلفة".

"تدعم طريقتنا الأغاني بمختلف اللغات وتضفي الحيوية على أنماط الصور المتنوعة. فهو يتعرف بشكل حدسي على الاختلافات النغمية في الصوت، مما يتيح إنشاء صور رمزية ديناميكية وغنية بالتعبير.

اقرأ أيضا: شركة OpenAI تطالب صحيفة نيويورك تايمز "باختراق" ChatGPT لتطوير قضية حقوق الطبع والنشر

التحدث والغناء من الصورة

ووفقًا للباحثين، فإن الأداة التي تعمل بالذكاء الاصطناعي لا تعالج الموسيقى فحسب، بل تستوعب أيضًا الصوت المنطوق بلغات مختلفة.

وقال الباحثون: "بالإضافة إلى ذلك، تتمتع طريقتنا بالقدرة على تحريك الصور من العصور الماضية، واللوحات، والنماذج ثلاثية الأبعاد والمحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي، وإضفاء حركة واقعية وواقعية عليها".

لكنها لا تنتهي عند هذا الحد. يمكن للمستخدمين أيضًا اللعب بصور شخصية وصور لنجوم السينما وهم يقدمون مونولوجات أو عروض بأنماط ولغات مختلفة.

بعض المتحمسين للذكاء الاصطناعي الذين انتقلوا إلى منصة X وصفوها بأنها "مذهلة".

ترقق الحدود بين الحقيقي والذكاء الاصطناعي

أخبار أداة EMO بقلم علي بابا جعل المستخدمين الآخرين يعتقدون أن الحدود بين الذكاء الاصطناعي والواقع على وشك الاختفاء مع استمرار شركات التكنولوجيا في إطلاق العنان لمنتجات جديدة.

"إن الحافة بين الذكاء الاصطناعي والواقع أضعف من أي وقت مضى" نشر روبن على X، في حين يعتقد البعض الآخر تيك توك سيتم غمرها قريبًا بالإبداعات.

"هذه هي المرة الأولى التي أرى فيها مثل هذه النتيجة الدقيقة والواقعية. فيديو الذكاء الاصطناعي وقال: "هذا العام يعد بأن يكون ذا مصداقية". بول كوفيرت.

بينما يعتقد البعض الآخر أن هذا قد يغير قواعد اللعبة بالنسبة للمبدعين، إلا أن مين تشوي حذر أيضًا بشأن هذا الأمر.

"آمل فقط للأشياء الإبداعية. قد يكون هذا خطيرًا إذا وقع في الأيدي الخطأ."

الموناليزا يمكنها الآن التحدث بفضل EMO

باستخدام الأداة

في شرح العملية، سلط الباحثون الضوء على أن إطار عمل EMO يتكون من مرحلتين، تعرف الأولى باسم Frames Encoding، حيث يتم نشر ReferenceNet لاستخراج الميزات من الصور المرجعية وإطارات الحركة.

المرحلة التالية هي مرحلة عملية الانتشار، حيث يقوم برنامج تشفير الصوت المُدرب مسبقًا "بمعالجة تضمين الصوت". لإنشاء صور مثالية للوجه، يقوم المستخدمون بدمج أقنعة منطقة الوجه والضوضاء متعددة الإطارات.

"هذه الآليات ضرورية للحفاظ على هوية الشخصية وتعديل حركات الشخصية، على التوالي،" يقرأ جزء من الشرح.

"بالإضافة إلى ذلك، يتم استخدام الوحدات الزمنية لمعالجة البعد الزمني وضبط حركة السرعة."

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة