شعار زيفيرنت

هل قامت Google بتزييف الفيديو التجريبي الخاص بـ Gemini AI؟ – شركات التكنولوجيا

التاريخ:

في يوم الأربعاء، فاجأت شركة جوجل الجميع بإطلاقها برنامج Gemini، وهو أكبر وأقوى نموذج للذكاء الاصطناعي حتى الآن. ومع ذلك، هناك تطور في القصة حيث ألمح تقرير The Information إلى تأخير محتمل في الإطلاق الكامل حتى عام 2024. ويبدو أن جوجل قررت تأجيل الإصدار بسبب بعض مشكلات الاستعداد، مما يعيد ذكريات الإصدار المهتز السابق للشركة لأدوات الذكاء الاصطناعي. هذا العام.

واجهت شركة Gemini، التي تتميز بالقدرة على التفوق في أداء OpenAI's GPT-4، تدقيقًا فوريًا من مختلف وسائل الإعلام التقنية. نشرت TechCrunch، على وجه الخصوص، مقالًا يدعي أن "أفضل عرض تجريبي لـGemini من Google كان مزيفًا". النقطة المحورية في حجتهم هي مقطع فيديو بعنوان "التدريب العملي مع الجوزاء: التفاعل مع الذكاء الاصطناعي متعدد الوسائط"، والذي حصد ما يقرب من مليوني مشاهدة في الأيام الثلاثة الماضية.

وفقًا لـ TechCrunch، تم اعتبار الفيديو التجريبي مزيفًا لأنه لم يتم إجراؤه في الوقت الفعلي أو من خلال التفاعل الصوتي الفعلي. لقد دعموا ادعائهم بتغريدة من بارمي أولسون، الذي سلط الضوء لأول مرة على التناقض بناءً على بيان من المتحدث باسم جوجل الذي أخبر أولسون أن العرض لم يحدث في الوقت الفعلي أو بصوت منطوق، وفقًا لبيان صادر عن جوجل. المتحدث الرسمي. وبدلاً من ذلك، تم إنشاؤه عن طريق "استخدام إطارات الصور الثابتة من اللقطات، والمطالبة عبر النص".

"PSA حول العرض التوضيحي لفيديو Google المذهل لـ Gemini - الشخص الذي يحمل البطة:

"لم يتم تنفيذه في الوقت الحقيقي أو بالصوت. عُرض على النموذج صور ثابتة من لقطات فيديو وتم سرد المطالبات البشرية بعد ذلك، وفقًا لمتحدث باسم الشركة المزيد هنا: بلومبرج.كوم/opinion/articl"كتب أولسون.

هل قامت Google بالفعل بتزييف فيديو Gemini AI العملي؟

إذًا، هل قامت Google بالفعل بتزييف الفيديو التجريبي العملي الخاص بـ Gemini AI؟ للوصول إلى جوهر هذا، من المهم ملاحظة أن مقالة TechCrunch كانت مبنية على منشور Olson على X، والذي تضمن رابطًا لمقالة Bloomberg المحذوفة الآن.

ولإضافة طبقة أخرى إلى القصة، كان المتحدث باسم Google هو الذي أبلغ أولسون أن العرض التوضيحي لـ Gemini لم يتم إجراؤه في الوقت الفعلي أو من خلال التفاعل الصوتي الفعلي. وبدلاً من ذلك، عُرض على النموذج صور ثابتة من لقطات فيديو، مع سرد المطالبات البشرية بعد ذلك.

في جوهر الأمر، وعلى عكس ما يوحي به المقال، فإن فيديو Gemini AI العملي المثير للإعجاب والذي شاركته Google أثناء إطلاق المنصة لم يكن حقيقيًا تمامًا. لم يكن الأمر تلفيقًا كاملاً أيضًا، بل كان بالأحرى تمثيلاً "للشكل الذي يمكن أن يبدو عليه برج الجوزاء"، حيث يقدم لمحة عن الإمكانات بدلاً من عرض توضيحي في الوقت الفعلي كما يعتقد العديد من المشاهدين.

ومع ذلك، قد يجادل البعض أنه في الدقيقة 2:45 من الفيديو، سلط موقع TechCrunch الضوء على لحظة حيث "تقوم اليد بصمت بسلسلة من الإيماءات. يستجيب الجوزاء بسرعة: "أعرف ما تفعله!" أنت تلعب لعبة الحجر والورق والمقص!‘‘

اعتمادات الصورة: جوجل / يوتيوب

كما ذكرت المقالة بشكل صحيح، فإن المعلومات الأولية في وثائق القدرة تنص بوضوح على أن النموذج لا يقوم باستقطاعات بناءً على الإيماءات الفردية. يتطلب الأمر تقديم الإيماءات الثلاث في وقت واحد، جنبًا إلى جنب مع المطالبة.

"لكن أول شيء في توثيق القدرة هو كيف أن النموذج لا يعتمد على رؤية الإيماءات الفردية. يجب أن يُظهر جميع الإيماءات الثلاث مرة واحدة ويطلب منه: "ماذا تعتقد أنني أفعل؟ " تلميح: إنها لعبة." يجيب: "أنت تلعب الحجر والورق والمقص."

وأشار المقال أيضًا إلى أنه على الرغم من التشابه الظاهري، إلا أن هذه التفاعلات لم تظهر بنفس الشكل بسبب قيود جيميني في أداء جميع المهام الموضحة في الفيديو العملي. وعلى هذا النحو، خلص موقع TechCrunch إلى أن "التفاعل" الموضح في الفيديو لم يحدث.

"على الرغم من التشابه، إلا أنهما لا يشعران بنفس التفاعل. إنها تبدو وكأنها تفاعلات مختلفة بشكل أساسي، أحدهما عبارة عن تقييم بديهي بدون كلمات يلتقط فكرة مجردة بسرعة، والآخر عبارة عن تفاعل مُصمم ومُلمح بشدة يُظهر القيود بقدر ما يُظهر القدرات. الجوزاء هو الذي فعل الأخير، وليس الأول. "التفاعل" الذي ظهر في الفيديو لم يحدث."

ومع ذلك، فإن الحجة المضادة لهذا الادعاء هي كما أشارت أولسون أيضًا في مقالتها بلومبرغ، يحتوي وصف YouTube للفيديو على إخلاء المسؤولية التالي:

"لأغراض هذا العرض التوضيحي، تم تقليل زمن الوصول وتم تقصير مخرجات Gemini للإيجاز."

يشير هذا إلى أن نموذج الذكاء الاصطناعي ربما كان يحتاج إلى مزيد من الوقت للاستجابة وفقًا لمتحدث باسم Google الذي أقر بأن العرض التوضيحي تم إنشاؤه عن طريق "استخدام إطارات الصور الثابتة من اللقطات، والمطالبة عبر النص".

ومن المثير للاهتمام أن الطريقة التي يعمل بها Gemini تتمحور حول الذكاء الاصطناعي أكثر مما تم تصويره في العرض التوضيحي. واصل نائب رئيس قسم الأبحاث في Google والقائد المشارك لـ Gemini عرض الأعمال الفعلية لـ Gemini.

هل كذبت Google بشأن الفيديو التجريبي؟

لا، لقد كانت Google واضحة وصريحة بأن العرض التوضيحي "لم يتم إجراؤه في الوقت الفعلي أو باستخدام الصوت المنطوق". ردًا على رأي بلومبرج، قال متحدث باسم جوجل إن الفيديو تم إنشاؤه "باستخدام إطارات الصور الثابتة من اللقطات، والمطالبة عبر النص".

"في الواقع، لم يتم تنفيذ العرض التوضيحي أيضًا في الوقت الفعلي أو بالصوت. عندما سُئل متحدث باسم Google عن الفيديو بواسطة Bloomberg Opinion، قال إنه تم إنتاجه عن طريق "استخدام إطارات الصور الثابتة من اللقطات، والمطالبة عبر النص"، وأشاروا إلى موقع يوضح كيف يمكن للآخرين التفاعل مع Gemini من خلال صور أيديهم. أو رسومات أو أشياء أخرى. بمعنى آخر، كان الصوت في العرض التوضيحي يقرأ المطالبات البشرية التي وجهوها إلى الجوزاء، ويعرض لهم صورًا ثابتة. وهذا مختلف تمامًا عما يبدو أن جوجل تقترحه: أنه يمكن لأي شخص إجراء محادثة صوتية سلسة مع برج الجوزاء أثناء مشاهدته للعالم من حوله والرد عليه في الوقت الفعلي. كتب على بلومبرج.

[المحتوى جزءا لا يتجزأ]


بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة