شعار زيفيرنت

تكشف OpenAI عن نموذج جديد قوي ومخيف لتحويل النص إلى فيديو

التاريخ:

تمتلك شركة الذكاء الاصطناعي المبدعة وراء ChatGPT وDALL-E لعبة جديدة: Sora، وهو نموذج لتحويل النص إلى فيديو يمكنه (في بعض الأحيان) إنشاء مقاطع مقنعة جدًا مدتها 60 ثانية من مطالبات مثل "امرأة أنيقة تسير في أحد شوارع طوكيو..." و"مقطع دعائي لفيلم يعرض مغامرات رجل الفضاء البالغ من العمر 30 عامًا والذي يرتدي خوذة دراجة نارية من الصوف الأحمر..."

لقد فشل الكثير من جيل فيديو الذكاء الاصطناعي الذي رأيناه حتى الآن في الحفاظ على واقع متسق، وإعادة تصميم الوجوه والملابس والأشياء من إطار إلى آخر. ومع ذلك، فإن سورا "لا يفهم فقط ما طلبه المستخدم في الموجه، ولكن أيضًا كيف توجد هذه الأشياء في العالم المادي"، كما يقول OpenAI في بعد إعلانها (باستخدام كلمة "يفهم" بشكل فضفاض).

عرض المنشور على imgur.com"

مقاطع سورا مثيرة للإعجاب. إذا لم أكن أنظر عن كثب - على سبيل المثال، كنت أتصفحها على وسائل التواصل الاجتماعي - فربما أعتقد أن العديد منها كانت حقيقية. تبدو المطالبة "فيديو الاحتفال بالعام القمري الصيني الجديد مع التنين الصيني" للوهلة الأولى وكأنها لقطات وثائقية نموذجية للعرض. ولكن بعد ذلك تدرك أن الناس متناسبون بشكل غريب، ويبدو أنهم يتعثرون - إنها مثل لحظة الحلم عندما تلاحظ فجأة أن كل شيء خاطئ بعض الشيء. مريب.

يقول OpenAI: "النموذج الحالي به نقاط ضعف". "قد يجد صعوبة في محاكاة فيزياء مشهد معقد بدقة، وقد لا يفهم حالات محددة من السبب والنتيجة. على سبيل المثال، قد يأخذ شخص ما قضمة من ملف تعريف الارتباط، ولكن بعد ذلك، قد لا يكون هناك علامة قضمة على ملف تعريف الارتباط. قد يخلط النموذج أيضًا بين التفاصيل المكانية للموجه، على سبيل المثال، الخلط بين اليسار واليمين، وقد يواجه صعوبة في الوصف الدقيق للأحداث التي تحدث بمرور الوقت، مثل اتباع مسار معين للكاميرا.

العرض المفضل لدي لنقاط ضعف سورا هو مقطع فيديو يبدأ فيه الكرسي البلاستيكي بالتحول إلى شكل حياة كروننبرغ. لمح:

عرض المنشور على imgur.com"

Sora غير متاح حاليًا للعامة، وتقول OpenAI إنها تقوم بتقييم المخاطر الاجتماعية للنموذج وتعمل على التخفيف منها، على سبيل المثال باستخدام "مصنف اكتشاف يمكنه معرفة متى تم إنشاء مقطع فيديو بواسطة Sora".

إنه أمر رائع كمشروع بحثي، لكن OpenAI ليست مهتمة فقط بعلوم الكمبيوتر الرائعة. إذا استطاعت أن تتفوق على منتقدي حقوق الطبع والنشر والمشرعين، فهي هنا لإنشاء بنك. تقول الشركة إنها حاليًا "تمنح [Sora] إمكانية الوصول إلى عدد من الفنانين البصريين والمصممين وصانعي الأفلام للحصول على تعليقات حول كيفية تطوير النموذج ليكون أكثر فائدة للمحترفين المبدعين." 

واحد المعلق على X تساءلت بتفاؤل عما إذا كانت عارضات الأزياء مثل سورا ستسمح يومًا ما للجمهور بانتزاع السيطرة على صناعة الأفلام بعيدًا عن هوليوود من خلال صناعة أفلام موجهة بحتة - لكنني أتساءل من أين سيأتي مصدر المادة لكل هذا الفيديو الذي تم إنتاجه إذا لم يكن الأمر كذلك، كما تعلمون، صناع السينما؟ قد تبدو أفلام هوليود متجانسة إلى حد ما بالفعل، لكن إعادة إنتاج الصور المولدة بواسطة الكمبيوتر (CGI) بأسلوب Marvel Cinematic Universe ولقطات السيارات التجارية بدون طيار لا تجلب التعبير الإبداعي للجماهير، إذا سألتني. (لم يذكر منشور المدونة بشكل خاص المواد التدريبية الخاصة بسورا.)

عرض المنشور على imgur.com"

على الرغم من النتائج الخرقاء في كثير من الأحيان للذكاء الاصطناعي التوليدي والمستنقع القانوني والأخلاقي الذي يمثله، فإننا نشهد بالفعل استخدامه في وسائل الإعلام الإبداعية المهنية. يتضمن ذلك ألعاب الفيديو، سواء بطرق مرئية لنا مباشرة، مثل إنشاء أعمال فنية وأصوات وحوار سريع، أو بطرق أقل وضوحًا، مثل إنشاء مقتطفات من التعليمات البرمجية أو فن مفاهيمي مبكر. أ وجدت الدراسة الاستقصائية الأخيرة أن يستخدم 31% من محترفي تطوير الألعاب الذكاء الاصطناعي التوليدي في بعض القدرات. بالاشتراك مع برامج أخرى، أتساءل ما الذي يمكن أن يفعله هذا النوع من محاكاة الفيديو المبنية على التعلم الآلي إلى جانب إنشاء مقاطع تشبه CG قليلاً؟

لا أعتقد أن أحدًا يعرف حقًا كيف سيتم استخدام الذكاء الاصطناعي التوليدي خلال خمس أو عشر سنوات أو ما هي عواقب التطوير المستمر، لكنه لا يتباطأ، لذلك يبدو أننا سنكتشف ذلك. تعمل شركة OpenAI وغيرها من الشركات بشكل واضح ليس فقط على تحسين مولدات الصور والفيديو والنصوص، ولكن أيضًا على "الذكاء العام الاصطناعي" أو AGI - كما هو الحال في فكرة الخيال العلمي حول ماهية الذكاء الاصطناعي.

يقول OpenAI: "يعمل Sora كأساس للنماذج التي يمكنها فهم ومحاكاة العالم الحقيقي، وهي قدرة نعتقد أنها ستكون علامة فارقة مهمة لتحقيق الذكاء الاصطناعي العام".

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة