شعار زيفيرنت

VideoPoet: تتطلع Google إلى تحدي OpenAI Sora وStable Diffusion للهيمنة في إنشاء فيديو الذكاء الاصطناعي - شركات التكنولوجيا الناشئة

التاريخ:

في فبراير، أحدثت OpenAI ضجة كبيرة مع الكشف عن سورا، وهي أداة رائعة تعمل بالذكاء الاصطناعي يمكنها تحويل المطالبات النصية إلى مقاطع فيديو جذابة. باستخدام Sora، يمكن للمستخدمين بث الحياة في أفكارهم، ومشاهدة مقاطع فيديو ديناميكية مدتها 60 ثانية من خلال الذكاء الاصطناعي من خلال إشارات نصية مختصرة. لكن لاعبًا آخر في المدينة أحدث ضجة على الإنترنت: VideoPoet، وهي أداة إنشاء فيديو من Google ظهرت على الساحة قبل ثلاثة أشهر.

VideoPoet هو من بنات أفكار فريق مكون من 31 باحثًا في Google Research، وهو يغير قواعد اللعبة في عالم إنشاء الوسائط المتعددة. بينما يركز Sora على تحويل النص إلى قصص مرئية، يتبع VideoPoet نهجًا مختلفًا. إنه يتفوق في إنشاء مقاطع فيديو واقعية باستخدام النصوص أو الصور أو حتى لقطات الفيديو الموجودة، وذلك بفضل التقنيات المتقدمة مثل نمذجة اللغة الانحدارية والرموز المميزة مثل MAGVIT V2 وSoundStream. يفتح هذا التنوع عالمًا من الإمكانيات للفن الرقمي وإنتاج الأفلام والوسائط التفاعلية.

المصدر: أبحاث جوجل

ما يجعل VideoPoet متميزًا هو تصميمه الفريد. في حين أن العديد من نماذج إنشاء الفيديو تعتمد على الأساليب القائمة على الانتشار، والتي تعتبر الأفضل أداءً في هذا المجال، إلا أن أبحاث Google اتخذت طريقًا مختلفًا. بدلاً من استخدام نموذج الانتشار المستقر الشهير، اختار باحثو Google نموذج اللغة الكبير (LLM) استنادًا إلى بنية المحولات. تم إعادة استخدام هذا النوع من نماذج الذكاء الاصطناعي، الذي يستخدم عادةً لإنشاء النصوص والتعليمات البرمجية، لإنشاء مقاطع فيديو - وهي خطوة جريئة تميز VideoPoet عن الآخرين.

"تستخدم معظم النماذج الحالية الأساليب القائمة على الانتشار والتي غالبًا ما تعتبر الأفضل أداءً حاليًا في مجال إنشاء الفيديو. تبدأ نماذج الفيديو هذه عادةً بنموذج صورة مُدرب مسبقًا، مثل Stable Diffusion، الذي ينتج صورًا عالية الدقة للإطارات الفردية، ثم تقوم بضبط النموذج لتحسين الاتساق الزمني عبر إطارات الفيديو. مراجعة ورقة بحثية.

ما هو VideoPoet وكيف يعمل؟

في جوهره، يستخدم VideoPoet نموذج لغة الانحدار التلقائي للتعلم من طرائق مختلفة مثل الفيديو والصورة والصوت والنص. أصبح هذا ممكنًا من خلال استخدام العديد من الرموز المميزة —ماجفيت V2 للفيديو والصور، وSoundStream للصوت.

عندما يقوم النموذج بإنشاء الرموز المميزة بناءً على سياق معين، يتم تحويل هذه الرموز المميزة لاحقًا مرة أخرى إلى تمثيل مرئي باستخدام وحدة فك التشفير الخاصة بأداة الرمز المميزة المعنية. وهذا يسمح بالترجمة السلسة بين أشكال الوسائط المختلفة، مما يضمن فهمًا متماسكًا وشاملاً عبر جميع الأساليب. وفيما يلي مكونات VideoPoet:

  • وحدات الرموز المميزة MAGVIT V2 وSoundStream المدربة مسبقًا، والتي تترجم الصور والفيديو ومقاطع الصوت إلى سلسلة من الرموز التي يمكن للنموذج فهمها.
  • نموذج لغة انحدار ذاتي، يتعلم من طرائق مختلفة - الفيديو والصورة والصوت والنص - للتنبؤ بالرمز المميز التالي في التسلسل.
  • مجموعة من أهداف التعلم التوليدية، بما في ذلك تحويل النص إلى فيديو، وتحويل النص إلى صورة، وتحويل الصورة إلى فيديو، والمزيد، والتي تمكن VideoPoet من إنشاء مقاطع فيديو متنوعة وعالية الجودة.

الميزات والقدرات الثورية

مثل Sora وStable Diffusion، يتمتع VideoPoet ببعض الميزات الثورية التي توفر منظورًا جديدًا لإنشاء الفيديو.

مقاطع فيديو متغيرة الطول وعالية الحركة: على عكس النماذج التقليدية، يقوم VideoPoet بإنشاء مقاطع فيديو متغيرة الطول وعالية الحركة بسهولة، مما يدفع حدود ما هو ممكن في إنشاء الفيديو.

التعلم عبر الوسائط: إحدى نقاط قوة VideoPoet تكمن في قدرته على التعلم عبر طرق مختلفة. من خلال سد الفجوة بين النصوص والصور ومقاطع الفيديو والصوت، يقدم VideoPoet فهمًا شاملاً يثري العملية الإبداعية.

قدرات التحرير التفاعلية: لا يقوم VideoPoet بإنشاء مقاطع فيديو فحسب، بل إنه يزود المستخدمين بميزات التحرير التفاعلية. بدءًا من توسيع مقاطع الفيديو المدخلة وحتى التحكم في الحركات وتطبيق التأثيرات المنمقة بناءً على المطالبات النصية، فإنه يضع التحكم الإبداعي في أيدي المستخدم.

يعد VideoPoet من Google أكثر من مجرد أداة لإنشاء الفيديو - فهو يغير قواعد اللعبة في عالم الذكاء الاصطناعي. ومن خلال الدمج السلس لقدرات متعددة في نموذج لغة واحد كبير (LLM)، فإنه يعيد تعريف مشهد إنشاء الفيديو. إن تعدد استخداماته في معالجة النصوص والصور والصوت يجعله لا غنى عنه لمنشئي المحتوى وعشاق الذكاء الاصطناعي على حد سواء، مما يضع معيارًا جديدًا للإبداع والابتكار.

فيما يلي تفاصيل لإمكانيات VideoPoet باستخدام الرسم البياني أدناه.

أولاً، يمكن إضفاء الحيوية على الصور المدخلة باستخدام الرسوم المتحركة، مما يؤدي إلى إنشاء حركة ديناميكية داخل الفيديو. بالإضافة إلى ذلك، يتوفر للمستخدمين خيار تحرير مقاطع الفيديو عن طريق قص أو إخفاء مناطق معينة، مما يسمح بتأثيرات الطلاء الداخلي أو الطلاء الخارجي بسلاسة.

عندما يتعلق الأمر بالأسلوب، يعمل النموذج بسحره من خلال تحليل مقطع فيديو يلتقط العمق والتدفق البصري - بشكل أساسي، الحركة داخل المشهد. وباستخدام هذه المعلومات، فإنه يطبق عناصر أسلوبية تسترشد بالمطالبات النصية، مما يعزز المظهر المرئي العام للفيديو.

انقر فوق لتوسيع

لكن ما يكفي من المصطلحات التقنية، فلنتحدث عن النتائج. ولعرض قدرات VideoPoet، أنتج فريق أبحاث Google فيلمًا قصيرًا استنادًا إلى مطالبات Bard، وهو نظام ذكاء اصطناعي لسرد القصص. النتائج؟ حكاية ساحرة لراكون مسافر، تم إحياءها من خلال سلسلة من مقاطع الفيديو الجذابة. إنها شهادة على قوة الذكاء الاصطناعي في سرد ​​القصص، ولمحة عن مستقبل إنشاء الوسائط المتعددة.

[المحتوى جزءا لا يتجزأ]

في عالم حيث المحتوى هو الملك، تعمل أدوات مثل Sora وVideoPoet على تغيير قواعد اللعبة، وتمكين المبدعين من إحياء أفكارهم بطرق لم تكن ممكنة من قبل. بفضل إمكاناتها المتقدمة وواجهاتها سهلة الاستخدام، تستعد هذه الأدوات المعتمدة على الذكاء الاصطناعي لإحداث ثورة في كيفية سرد القصص والتعبير عن أنفسنا من خلال الفيديو.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة