شعار زيفيرنت

ما هي التضمينات المتجهات؟ | تعريف من TechTarget

التاريخ:

ما هي التضمينات المتجهات؟

التضمين المتجه عبارة عن تمثيلات رقمية تلتقط العلاقات ومعاني الكلمات والعبارات وأنواع البيانات الأخرى. من خلال تضمينات المتجهات، تتم ترجمة الخصائص أو الميزات الأساسية لكائن ما إلى مجموعة موجزة ومنظمة من الأرقام، مما يساعد أجهزة الكمبيوتر على استرداد المعلومات بسرعة. يتم تجميع نقاط البيانات المتشابهة بالقرب من بعضها البعض بعد ترجمتها إلى نقاط في مساحة متعددة الأبعاد.

تستخدم في مجموعة واسعة من التطبيقات، وخاصة في معالجة اللغات الطبيعية (NLP) والتعلم الآلي (ML) ، تساعد عمليات تضمين المتجهات في معالجة البيانات ومعالجتها لمهام مثل مقارنات التشابه والتجميع والتصنيف. على سبيل المثال، عند النظر إلى البيانات النصية، فإن كلمات مثل قط و كيتي تحمل معاني متشابهة رغم اختلاف تركيب حروفها. يعتمد البحث الدلالي الفعال على تمثيلات دقيقة تلتقط بشكل مناسب هذا التشابه الدلالي بين المصطلحات.

[المحتوى جزءا لا يتجزأ]

هل التضمينات والمتجهات هي نفس الشيء؟

الشروط ناقلات و التضمين يمكن استخدامها بالتبادل في سياق تضمينات المتجهات. كلاهما يشير إلى تمثيلات البيانات الرقمية التي فيها كل منهما نقطة البيانات يتم تمثيله كمتجه في مساحة عالية الأبعاد.

يشير المتجه إلى مجموعة من الأرقام ذات بُعد محدد، بينما تستخدم التضمينات المتجهة هذه المتجهات لتمثيل نقاط البيانات في مساحة مستمرة.

هذه المقالة جزء من

تشير التضمينات إلى التعبير عن البيانات كمتجهات لالتقاط معلومات مهمة أو روابط دلالية أو صفات سياقية أو تمثيل منظم للبيانات المستفادة عبر خوارزميات التدريب أو نماذج التعلم الآلي.

أنواع التضمينات المتجهات

تأتي عمليات تضمين المتجهات في أشكال متنوعة، ولكل منها وظيفة مميزة لتمثيل أنواع مختلفة من البيانات. فيما يلي بعض الأنواع الشائعة من تضمينات المتجهات:

  • تضمينات الكلمات. تعد تضمينات الكلمات عبارة عن تمثيلات متجهة للكلمات الفردية في مساحة مستمرة. يتم استخدامها بشكل متكرر لالتقاط الروابط الدلالية بين الكلمات في مهام مثل تحليل المشاعروترجمة اللغة وتشابه الكلمات.
  • تضمينات الجملة. تسمى التمثيلات المتجهة للجمل الكاملة بتضمين الجملة. إنها مفيدة للمهام بما في ذلك تحليل المشاعر وتصنيف النص واسترجاع المعلومات لأنها تلتقط معنى الجملة وسياقها.
  • تضمينات الوثيقة. تعد عمليات تضمين المستندات بمثابة تمثيلات متجهة للمستندات بأكملها، مثل المقالات أو التقارير. تُستخدم عادةً في مهام مثل تشابه المستندات والتجميع وأنظمة التوصية، فهي تلتقط المعنى العام للوثيقة ومحتواها.
  • ناقلات ملف تعريف المستخدم. هذه عبارة عن تمثيلات متجهة لتفضيلات المستخدم أو تصرفاته أو سماته. يتم استخدامها في فئات الزبائنوأنظمة التوصية الشخصية والإعلانات المستهدفة لجمع البيانات الخاصة بالمستخدم.
  • ناقلات الصورة. هذه هي تمثيلات متجهة للعناصر المرئية، مثل الصور أو إطارات الفيديو. يتم استخدامها في مهام مثل التعرف على الأشياءوالبحث عن الصور وأنظمة التوصية القائمة على المحتوى لالتقاط الميزات المرئية.
  • ناقلات المنتج. تمثيل المنتجات أو العناصر كمتجهات، ويتم استخدامها في عمليات البحث عن المنتجات وتصنيف المنتجات وأنظمة التوصية لجمع الميزات وأوجه التشابه بين المنتجات.
  • ناقلات ملف تعريف المستخدم. تمثل متجهات ملف تعريف المستخدم تفضيلات المستخدم أو تصرفاته أو سماته. يتم استخدامها في تقسيم المستخدمين وأنظمة التوصية الشخصية الإعلانات المستهدفة لجمع البيانات الخاصة بالمستخدم.

كيف يتم إنشاء تضمينات المتجهات؟

يتم إنشاء عمليات تضمين المتجهات باستخدام نهج تعلم الآلة الذي يقوم بتدريب النموذج على تحويل البيانات إلى متجهات رقمية. عادة، عميق شبكة عصبية تلافيفية يستخدم لتدريب هذه الأنواع من النماذج. غالبًا ما تكون التضمينات الناتجة كثيفة - جميع القيم غير صفرية - وذات أبعاد عالية - تصل إلى 2,000 بُعد. النماذج الشائعة مثل Word2Vec وGLoVE و بيرت تحويل الكلمات أو العبارات أو الفقرات إلى تضمينات متجهة للبيانات النصية.

يتم تضمين الخطوات التالية بشكل شائع في العملية:

  1. تجميع مجموعة بيانات كبيرة. يتم تجميع مجموعة بيانات تلتقط فئة البيانات المحددة التي تهدف عمليات التضمين إليها - سواء كانت تتعلق بالنص أو الصور.
  2. المعالجة المسبقة للبيانات. اعتمادا على نوع البيانات، والتنظيف والتحضير و معالجة البيانات يتضمن إزالة الضوضاء وتغيير حجم الصور وتطبيع النص وتنفيذ عمليات إضافية.
  3. درب النموذج. لتحديد الروابط والأنماط في البيانات، يتم تدريب النموذج باستخدام مجموعة البيانات. لتقليل التباين بين الهدف والمتجهات المتوقعة، يتم تغيير معلمات النموذج المُدرب مسبقًا أثناء مرحلة التدريب.
  4. توليد التضمينات ناقلات. بعد التدريب، يمكن للنموذج تحويل البيانات الجديدة إلى متجهات رقمية، وتقديم تمثيل هادف ومنظم يغلف بشكل فعال المعلومات الدلالية للبيانات الأصلية.

يمكن إجراء عمليات تضمين المتجهات لمجموعة واسعة من أنواع البيانات، بما في ذلك بيانات السلاسل الزمنية والنصوص والصور والصوت، نماذج ثلاثية الأبعاد (3D). والفيديو. نظرًا للطريقة التي يتم بها تشكيل التضمينات، فإن الكائنات ذات الدلالات المتشابهة سيكون لها متجهات في الفضاء المتجهي تكون قريبة من بعضها البعض.

أين يتم تخزين تضمينات المتجهات؟

يتم تخزين تضمينات المتجهات داخل قواعد بيانات متخصصة تُعرف باسم قواعد البيانات المتجهة. قواعد البيانات هذه عبارة عن تمثيلات رياضية عالية الأبعاد لميزات البيانات. على عكس قواعد البيانات القياسية القائمة على العددية أو فهارس المتجهات المستقلة، توفر قواعد بيانات المتجهات كفاءات محددة لتخزين واسترجاع تضمينات المتجهات على نطاق واسع. إنها توفر القدرة على تخزين واسترجاع كميات هائلة من البيانات بشكل فعال لوظائف البحث عن المتجهات.

تتضمن قواعد بيانات المتجهات العديد من المكونات الأساسية، بما في ذلك الأداء و التسامح مع الخطأ. للتأكد من أن قواعد بيانات المتجهات متسامحة مع الأخطاء والنسخ المتماثل و عملية التجزئة يتم استخدام التقنيات. النسخ المتماثل هو عملية إنتاج نسخ من البيانات عبر العديد من العقد، في حين أن التجزئة هي عملية تقسيم البيانات عبر عدة عقد. وهذا يوفر التسامح مع الخطأ والأداء دون انقطاع حتى في حالة فشل العقدة.

تعتبر قواعد بيانات المتجهات فعالة في التعلم الآلي والذكاء الاصطناعي (AI) التطبيقات، لأنها متخصصة في الإدارة البيانات غير المنظمة وشبه المنظمة.

تطبيقات التضمين ناقلات

هناك عدة استخدامات لتضمين المتجهات في مختلف الصناعات. تتضمن التطبيقات الشائعة لتضمينات المتجهات ما يلي:

  • أنظمة التوصية. تلعب عمليات تضمين المتجهات دورًا حاسمًا في أنظمة التوصية الخاصة بعمالقة الصناعة، بما في ذلك Netflix وAmazon. تتيح هذه التضمينات للمؤسسات حساب أوجه التشابه بين المستخدمين والعناصر، وترجمة تفضيلات المستخدم وميزات العنصر إلى متجهات. تساعد هذه العملية في تقديم اقتراحات مخصصة تناسب أذواق المستخدمين الفردية.
  • محركات البحث. محركات البحث استخدام تضمينات المتجهات على نطاق واسع لتحسين فعالية وكفاءة استرجاع المعلومات. وبما أن تضمينات المتجهات تتجاوز مجرد مطابقة الكلمات الرئيسية، فإنها تساعد محركات البحث على تفسير معنى الكلمات والجمل. حتى عندما لا تتطابق العبارات تمامًا، لا يزال بإمكان محركات البحث العثور على المستندات أو المعلومات الأخرى ذات الصلة بالسياق واستردادها من خلال نمذجة الكلمات كمتجهات في الفضاء الدلالي.
  • روبوتات الدردشة وأنظمة الإجابة على الأسئلة. ناقلات التضمين المساعدات روبوتات الدردشة وأنظمة الإجابة على الأسئلة المبنية على الذكاء الاصطناعي في فهم وإنتاج الاستجابات الشبيهة بالإنسان. من خلال التقاط سياق النص ومعناه، تساعد عمليات التضمين روبوتات الدردشة على الاستجابة لاستفسارات المستخدم بطريقة هادفة ومنطقية. على سبيل المثال، نماذج اللغة وروبوتات الدردشة المدعمة بالذكاء الاصطناعي، بما في ذلك GPT-4 ومعالجات الصور مثل دال- E2، اكتسبت شعبية هائلة لإنتاج محادثات واستجابات شبيهة بالإنسان.
  • كشف الاحتيال والكشف عن الخارجين عن القانون. يمكن استخدام تضمينات المتجهات للكشف عن الحالات الشاذة أو الأنشطة الاحتيالية من خلال تقييم التشابه بين المتجهات. يتم تحديد الأنماط غير الشائعة من خلال تقييم المسافة بين التضمين والتحديد القيم المتطرفة.
  • المعالجة المسبقة للبيانات. للتحول البيانات غير المعالجة إلى تنسيق مناسب لتعلم الآلة ونماذج التعلم العميق، يتم استخدام عمليات التضمين في أنشطة المعالجة المسبقة للبيانات. على سبيل المثال، يتم استخدام تضمينات الكلمات لتمثيل الكلمات كمتجهات، مما يسهل معالجة وتحليل البيانات النصية.
  • التعلم بالطلقة الواحدة والتعلم بالصفر. إن التعلم دفعة واحدة والتعلم الصفري عبارة عن نهجين لتضمين المتجهات التي تساعد نماذج التعلم الآلي على التنبؤ بنتائج الفصول الدراسية الجديدة، حتى عند تزويدها ببيانات مصنفة محدودة. يمكن للنماذج تعميم وإنشاء تنبؤات حتى مع وجود عدد صغير من مثيلات التدريب باستخدام المعلومات الدلالية المضمنة في التضمينات.
  • التشابه الدلالي والتجمع. تسهل عمليات تضمين المتجهات قياس مدى تشابه كائنين في بيئة عالية الأبعاد. وهذا يجعل من الممكن القيام بعمليات مثل حساب التشابه الدلالي، وتجميع وتجميع الأشياء ذات الصلة بناءً على تضميناتها.
Image showing vector embedding in chatbots.
تتيح عمليات التضمين لروبوتات الدردشة الرد على استفسارات المستخدم بطريقة هادفة ومنطقية.

ما نوع الأشياء التي يمكن تضمينها؟

يمكن تمثيل العديد من الأنواع المختلفة من الكائنات وأنواع البيانات باستخدام التضمينات المتجهة. تتضمن الأنواع الشائعة من الأشياء التي يمكن تضمينها ما يلي:

نص

يتم تمثيل الكلمات أو العبارات أو المستندات كمتجهات باستخدام تضمينات النص. تستخدم مهام البرمجة اللغوية العصبية - بما في ذلك تحليل المشاعر والبحث الدلالي وترجمة اللغة - التضمينات بشكل متكرر.

يعد Universal Sentence Encoder واحدًا من أكثر نماذج التضمين مفتوحة المصدر شيوعًا ويمكنه تشفير الجمل الفردية وأجزاء النص بالكامل بكفاءة.

الصور

تقوم عمليات تضمين الصور بالتقاط وتمثيل الخصائص المرئية للصور كمتجهات. وتشمل حالات استخدامها تحديد الكائنات وتصنيف الصور والبحث العكسي عن الصور، والذي يُعرف غالبًا باسم البحث بالصور.

يمكن أيضًا استخدام تضمينات الصور لتمكين إمكانيات البحث المرئي. من خلال استخراج التضمينات من صور قاعدة البيانات، يمكن للمستخدم مقارنة تضمينات صورة الاستعلام مع تضمينات صور قاعدة البيانات لتحديد موقع التطابقات المتشابهة بصريًا. وهذا شائع الاستخدام في التجارة الإلكترونية التطبيقات، حيث يمكن للمستخدمين البحث عن العناصر عن طريق تحميل صور لمنتجات مماثلة.

Google Lens هو تطبيق للبحث عن الصور يقوم بمقارنة صور الكاميرا بمنتجات مماثلة بصريًا. على سبيل المثال، يمكن استخدامه لمطابقة منتجات الإنترنت المشابهة لزوج من الأحذية الرياضية أو قطعة من الملابس.

Audio

تعد عمليات تضمين الصوت عبارة عن تمثيلات متجهة للإشارات الصوتية. تلتقط عمليات تضمين المتجهات الخصائص السمعية، مما يسمح للأنظمة بتفسير البيانات الصوتية بشكل أكثر فعالية. على سبيل المثال، يمكن استخدام عمليات تضمين الصوت لتوصيات الموسيقى وتصنيفات الأنواع وعمليات البحث عن تشابه الصوت والتعرف على الكلام والتحقق من المتحدث.

بينما يتم استخدام الذكاء الاصطناعي لأنواع مختلفة من عمليات التضمين، فقد حظي الذكاء الاصطناعي الصوتي باهتمام أقل من الذكاء الاصطناعي النصي أو المصور. جوجل تحويل الكلام إلى نص و OpenAI Whisper هي تطبيقات تضمين الصوت المستخدمة في مؤسسات مثل مراكز الاتصال والتكنولوجيا الطبية وإمكانية الوصول وتطبيقات تحويل الكلام إلى نص.

الرسوم البيانية

تستخدم تضمينات الرسم البياني المتجهات لتمثيل العقد والحواف في الرسم البياني. هم تستخدم في المهام المتعلقة بتحليلات الرسم البياني مثل التنبؤ بالارتباط والتعرف على المجتمع وأنظمة التوصية.

تمثل كل عقدة كيانًا، مثل شخص أو صفحة ويب أو منتج، وترمز كل حافة إلى الارتباط أو الاتصال الموجود بين تلك الكيانات. يمكن لهذه التضمينات المتجهة إنجاز كل شيء بدءًا من التوصية بالأصدقاء الشبكات الاجتماعية لاكتشاف مشكلات الأمن السيبراني.

بيانات السلاسل الزمنية والنماذج ثلاثية الأبعاد

تلتقط عمليات تضمين السلاسل الزمنية الأنماط الزمنية في البيانات المتسلسلة. يتم استخدامها في إنترنت الأشياء التطبيقات والبيانات المالية وبيانات الاستشعار للأنشطة بما في ذلك الكشف عن الحالات الشاذة، التنبؤ بالسلسلة الزمنية وتحديد النمط.

يمكن أيضًا التعبير عن الجوانب الهندسية للكائنات ثلاثية الأبعاد كمتجهات باستخدام تضمينات النماذج ثلاثية الأبعاد. يتم تطبيقها في مهام مثل إعادة البناء ثلاثي الأبعاد واكتشاف الكائنات ومطابقة النماذج.

جزيئات

تمثل التضمينات الجزيئية المركبات الكيميائية كنواقل. يتم استخدامها في اكتشاف الأدوية والبحث عن التشابه الكيميائي والتنبؤ بالخصائص الجزيئية. تُستخدم هذه التضمينات أيضًا في الكيمياء الحسابية وتطوير الأدوية لالتقاط السمات الهيكلية والكيميائية للجزيئات.

Image showing vector embeddings of objects.
يتم استخدام مجموعات منظمة من الأرقام كتضمينات متجهة للكائنات.

ما هو Word2Vec؟

يعد Word2Vec أسلوبًا شائعًا لتضمين متجهات الكلمات في البرمجة اللغوية العصبية (NLP). تم تصميم Word2Vec، الذي أنشأته Google، لتمثيل الكلمات كمتجهات كثيفة في مساحة متجهة مستمرة. يمكنه التعرف على سياق الكلمة في المستند ويستخدم بشكل شائع في مهام البرمجة اللغوية العصبية مثل تصنيف النص وتحليل المشاعر و الترجمة الآلية لمساعدة الآلات على فهم ومعالجة اللغة الطبيعية بشكل أكثر فعالية.

يعتمد Word2Vec على مبدأ مفاده أن الكلمات ذات المعاني المتشابهة يجب أن يكون لها تمثيلات متجهة مماثلة، مما يمكّن النموذج من التقاط الروابط الدلالية بين الكلمات.

يحتوي Word2Vec على بنيتين أساسيتين، CBOW (حقيبة الكلمات المستمرة) وSkip-Gram:

  • CBOW. تتنبأ هذه البنية بالكلمة المستهدفة بناءً على كلمات السياق. يُعطى النموذج سياقًا أو كلمات محيطة، ويُكلف بالتنبؤ بالكلمة المستهدفة في المركز. على سبيل المثال، في الجملة، "يقفز الثعلب البني السريع فوق الكلب الكسول"، يستخدم CBOW السياق أو الكلمات المحيطة للتنبؤ ثعلب كالكلمة المستهدفة
  • تخطي جرام. على عكس CBOW، تتنبأ بنية Skip-Gram بكلمات السياق بناءً على الكلمة المستهدفة. يتم إعطاء النموذج كلمة مستهدفة ويطلب منه التنبؤ بمصطلحات السياق المحيطة. بأخذ المثال أعلاه للجملة "الثعلب البني السريع يقفز فوق الكلب الكسول"، فإن Skip-gram سيأخذ الكلمة المستهدفة ثعلب واكتشف كلمات سياقية مثل "The" و"quick" و"brown" و"jumps" و"over" و"the" و"lazy" و"dog".

بدأت مجموعة واسعة من الشركات في تبني الذكاء الاصطناعي التوليدي، مما يدل على إمكاناته الثورية. يفحص كيف يتطور الذكاء الاصطناعي التوليديوما هو الاتجاه الذي ستسير فيه في المستقبل وأي تحديات قد تنشأ.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة