شعار زيفيرنت

لماذا قام Google Gemini "بتسريب" بيانات الدردشة؟

التاريخ:

لم يستغرق الأمر سوى أربع وعشرين ساعة بعد إصدار Google Gemini علنًا حتى يلاحظ شخص ما أن الدردشات يتم عرضها بشكل عام في نتائج بحث Google. استجابت Google بسرعة لما بدا أنه تسرب. السبب وراء حدوث ذلك مفاجئ تمامًا وليس شريرًا كما يبدو للوهلة الأولى.

@shemiadhikarath تويتد:

"بعد ساعات قليلة من إطلاق Google Gemini، قامت محركات البحث مثل Bing بفهرسة المحادثات العامة من Gemini."

لقد نشروا لقطة شاشة للبحث في موقعgemini.google.com/share/

ولكن إذا نظرت إلى لقطة الشاشة، سترى أن هناك رسالة تقول: "نود أن نعرض لك وصفًا هنا ولكن الموقع لن يسمح لنا بذلك".

بحلول الصباح الباكر من يوم الثلاثاء 13 فبراير، بدأت محادثات Google Gemini في التراجع عن نتائج بحث Google، وكان Google يعرض ثلاث نتائج بحث فقط. وبحلول فترة ما بعد الظهر، تضاءل عدد محادثات جيميني المسربة التي تظهر في نتائج البحث إلى نتيجة بحث واحدة فقط.

لقطة شاشة لنتائج بحث Google للصفحات المفهرسة من النطاق الفرعي لدردشة Google Gemini

لقطة شاشة لنتائج بحث Google للصفحات المفهرسة من النطاق الفرعي لدردشة Google Gemini

كيف تم إنشاء صفحات دردشة الجوزاء؟

يقدم Gemini طريقة لإنشاء رابط لنسخة قابلة للعرض بشكل عام من الدردشة الخاصة.

لا يقوم Google تلقائيًا بإنشاء صفحات ويب من الدردشات الخاصة. يقوم المستخدمون بإنشاء صفحات الدردشة من خلال رابط موجود أسفل كل دردشة.

لقطة شاشة لكيفية إنشاء صفحة دردشة مشتركة

لقطة شاشة لكيفية إنشاء صفحة ويب عامة لدردشة Google Gemini الخاصة

لقطة شاشة لكيفية إنشاء صفحة ويب عامة لدردشة Google Gemini الخاصة

لماذا تمت فهرسة صفحات دردشة الجوزاء؟

السبب الواضح وراء الزحف إلى صفحات الدردشة وفهرستها هو أن Google نسيت وضع ملف robots.txt في جذر نطاق Gemini الفرعي (gemini.google.com).

ملف robots.txt هو مستند للتحكم في نشاط الزاحف على مواقع الويب. يمكن للناشر حظر برامج زحف معينة باستخدام الأوامر الموحدة في بروتوكول Robots.txt.

لقد قمت بفحص ملف robots.txt الساعة 4:19 صباحًا يوم 13 فبراير ورأيت أنه موجود في مكانه الصحيح:

ملف Google Gemini robots.txt

ملف Google Gemini robots.txt

قمت بعد ذلك بفحص أرشيف الإنترنت لمعرفة المدة التي ظل فيها ملف robots.txt في مكانه واكتشفت أنه كان موجودًا منذ الثامن من فبراير على الأقل، وهو اليوم الذي تم فيه الإعلان عن تطبيقات Gemini.

لقطة شاشة من أرشيف الإنترنت

لقطة شاشة لروبوتات Google Gemini. يُظهر ملف robots.txt من أرشيف الإنترنت وجوده في 8 فبراير 2024.

لقطة شاشة لروبوتات Google Gemini. يُظهر ملف robots.txt من أرشيف الإنترنت وجوده في 8 فبراير 2024.

وهذا يعني أن السبب الواضح وراء الزحف إلى صفحات الدردشة ليس هو السبب الصحيح، بل هو السبب الأكثر وضوحًا فقط.

على الرغم من أن النطاق الفرعي Google Gemini يحتوي على ملف robots.txt الذي يمنع برامج زحف الويب من كل من Bing وGoogle، فكيف انتهى بهم الأمر إلى الزحف إلى تلك الصفحات وفهرستها؟

طريقتان لاكتشاف صفحات الدردشة الخاصة وفهرستها

  • قد يكون هناك رابط عام في مكان ما.
  • من المحتمل ولكن ربما يكون من الممكن أن يتم اكتشافها من خلال سجل التصفح المرتبط بملفات تعريف الارتباط.

من المرجح أن تكون هناك روابط عامة.

سألت بيل هارتزر (@bhartzer) حول هذا الموضوع واكتشف أ رابط عام لإحدى الصفحات المفهرسة:

رابط عام لصفحة الدردشة المشتركة في Google Gemini

رابط عام لصفحة الدردشة المشتركة في Google Gemini

نعلم الآن أنه من المحتمل جدًا أن يكون هناك رابط عام قد تسبب في الزحف إلى صفحات Gemini Chat هذه وفهرستها.

قدم بيل هارتزر هذه الملاحظة:

"على الرغم من حظر عنوان URL الخاص بـ Gemini في ملف robots.txt، إلا أن هناك رابطًا إلى عنوان URL الخاص بـ Gemini في تعليق بالمدونة، بحيث تتم فهرسة عنوان URL الخاص بـ Gemini.

يوضح هذا أن Google سيستمر في فهرسة عناوين URL المحظورة من الزحف إلى ملف robots.txt.

إذا أرادت Google حقًا التأكد من عدم فهرسة عنوان URL الخاص بـ Gemini، فإنها ستسمح بالزحف إلى ملف robots.txt وإضافة علامة تعريف noindex على الصفحات. ربما ينبغي على Google اتباع نصيحتها الخاصة هنا؟"

لماذا بدأت صفحات الدردشة بالتسرب من نتائج البحث؟

ولكن إذا كان هناك رابط عام، فلماذا بدأت Google في إسقاط صفحات الدردشة تمامًا؟ هل أنشأت Google قاعدة داخلية لزاحف البحث لاستبعاد صفحات الويب من المجلد /share/ من فهرس البحث، حتى لو كانت مرتبطة بشكل عام؟

نظرة ثاقبة حول كيفية محتوى فهرس Bing وبحث Google

الآن هذا هو الجزء المثير للاهتمام حقًا لجميع محترفي البحث المهتمين بكيفية فهرسة محتوى Google وBing.

استجاب فهرس بحث Microsoft Bing لمحتوى Gemini بشكل مختلف عن استجابة بحث Google. بينما كان جوجل لا يزال يعرض ثلاث نتائج بحث في الصباح الباكر من يوم 13 فبراير، كان محرك البحث Bing يعرض نتيجة واحدة فقط من النطاق الفرعي. كانت هناك جودة عشوائية على ما يبدو لما تم فهرسته وكم منه.

لماذا تسربت صفحات دردشة الجوزاء؟

وإليكم الحقائق المعروفة:

  • كان لدى Google ملف robots.txt في مكانه منذ الثامن من فبراير.
  • قام كل من Google وBing بفهرسة الصفحات من النطاق الفرعيgemini.google.com.
  • ربما اكتشف كل من Google وBing روابط للمحادثات وقاما بفهرستها لاحقًا.
  • قامت محركات البحث بفهرسة المحتوى بغض النظر عن ملف robots.txt ثم بدأت في التخلص منه.

وهذا يعيدنا إلى السؤال عن سبب ظهور هذه الصفحات في نتائج البحث لكل من Google وBing. أعتقد أن صفحات دردشة Google Gemini عبارة عن صفحات ويب منخفضة الجودة ولا تستحق الظهور لعمليات البحث الطويلة بشكل أساسي (site:gemini.google.com/share/). لا يوجد حقًا أي سبب مفيد لإظهار هذه الصفحات في نتائج البحث.

لا يزال من الممكن اكتشاف المحتوى المحظور بواسطة ملف Robots.txt، والزحف إليه، ووضعه في نهاية المطاف في فهرس البحث، وإذا كانت الصفحات مفيدة، فيمكن أيضًا تصنيفها، ما لم تكن مفيدة. أعتقد أن هذا قد يكون هو الحال.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة