شعار زيفيرنت

الذكاء الاصطناعي التوليدي والامتثال الدلالي - البيانات

التاريخ:

يعرف CPT ونظرائه فقط عدد العبارات التي تم إجراؤها بناءً على نتائج الذكاء الاصطناعي التوليدي. لكن هناك الكثير منهم.

خلفيتي كملف منمذجة البيانات على مدى سنوات عديدة ، يجعلني أرتجف قليلاً ، لأن ما يساعدنا مساعدو الذكاء الاصطناعي الودودون في إنتاجه يخضع لعمليات معرفية ، حيث نقوم نحن القراء بمعالجة المدخلات ونتائج الذكاء الاصطناعي فيما يتعلق بدلالات مفهومة (من قبلنا) ، محددة المعرفة التي بناها كل منا بمرور الوقت. ونتوقع أن تتبع نتائج الذكاء الاصطناعي أنماطًا متشابهة (أي مقابلة). 

بعبارة أخرى ، أتوقع أن يكون "ChatSome" متوافقًا ضمنيًا مع دلالات محددة ، مدمجة في مجموعات التدريب:

رسم تخطيطي عن طريق ويبوجل - اذهب هناك لقراءة الرسم التخطيطي

الشبكة الدلالية في المثال أعلاه هي الأنطولوجيا FOAF (Friend of a Friend) المعروفة ، والتي تأتي من مجتمع الويب العالمي. لذلك ، إذا ناقش ChatSome القضايا المتعلقة بالأصدقاء ، فقد يبدو من الطبيعي توقع أن الهياكل الدلالية لا تختلف كثيرًا عن المعيار أعلاه (FOAF).

الدلالات المشتركة هي ضرورة في التواصل البشري.

الهندسة السريعة للإنقاذ؟

يبدو أن الإجابة ، في الوقت الحالي ، من مسوقي الذكاء الاصطناعي ، حريصة ومنسقة و "هندسة سريعة" - لأنه إذا كنت لا تستطيع تحديد ما تسأل عنه ، فكيف يمكن لأي ذكاء اصطناعي (أو إنسان) أن يجيب بذكاء؟

انظر ، على سبيل المثال ، هذا المقال الأخير الممتاز من Harvard Business Review بقلم أوغوز أ. أكار ، "الهندسة السريعة للذكاء الاصطناعي ليست هي المستقبل"

أنا أشجعك على قراءة المقال ، لكنك ستحصل على جوهره في هذا الاقتباس: 

ومع ذلك ، على الرغم من الضجة التي أحاطت بها ، فإن بروز الهندسة السريعة قد يكون عابرًا لعدة أسباب. أولاً ، ستصبح الأجيال القادمة من أنظمة الذكاء الاصطناعي أكثر سهولة ومهارة في فهم اللغة الطبيعية ، مما يقلل الحاجة إلى مطالبات مصممة بدقة. ثانيًا ، تُظهر نماذج لغة الذكاء الاصطناعي الجديدة مثل GPT4 بالفعل وعدًا كبيرًا في صياغة المطالبات - الذكاء الاصطناعي نفسه على وشك جعل الهندسة السريعة عفا عليها الزمن. أخيرًا ، تعتمد فعالية المطالبات على الخوارزمية المحددة ، مما يحد من فائدتها عبر نماذج وإصدارات متنوعة للذكاء الاصطناعي.

إذن ، ما هي المهارة الأكثر ديمومة وقابلية للتكيف والتي ستظل تمكننا من تسخير إمكانات الذكاء الاصطناعي التوليدي؟ إنها صياغة المشكلة - القدرة على تحديد المشاكل وتحليلها وتحديدها ".

أنا أتفق مع هذا الطريق طويل. هذا يعني أن هناك المزيد من العمل الذي يتعين القيام به. في الواقع ، يبدو لي أن ما نسمعه من بعض صانعي سوق الذكاء الاصطناعي الأكثر تفاؤلاً وتفاؤلًا يتماشى مع هذا الاقتباس الشهير (المزعوم) للمؤلفة السويدية أستريد ليندغرين ، التي من المفترض أنها تسمح لشخصيتها الرئيسية ، Pippi Longstocking يقول: "لم أحاول ذلك من قبل ، لذا أعتقد أنه يجب أن أكون قادرًا بالتأكيد على القيام بذلك."

هنا غلاف كتاب من عالم Pippi Longstocking:

مصدر الصورة: راكوتين كوبو

لم يكن هناك شيء صعب للغاية على Pippi ، حتى رفع حصانها! يوجد ما لا يقل عن 14 كتابًا وعدد من الأفلام التي توثق ذلك. الأطفال وأولياء أمورهم مفتونون بهذه القصص حتى مرحلة البلوغ. لماذا يذكرني هذا ببعض الروايات الصادرة عن أجزاء من كاليفورنيا؟

ومع ذلك ، تتوفر آراء أكثر توازناً: في كتابه الجديد الممتاز ، "رواد البيانات - وعد الذكاء الاصطناعي والمنشئين ببناء مستقبلنا ، "بوب موغليا يسلط الضوء على كيفية قيام يان ليكون من جامعة نيويورك وميتا يشير بعض الأساسيات حول التعلم والتخوف في "A Path Towards Autonomous Machine Intelligence Version 0.9.2، 2022-06-27":

"يبدو أن الحيوانات البشرية وغير البشرية قادرة على تعلم كميات هائلة من المعرفة الأساسية حول كيفية عمل العالم من خلال الملاحظة ومن خلال كمية صغيرة غير مفهومة من التفاعلات بطريقة مستقلة عن المهام وغير خاضعة للإشراف. يمكن الافتراض أن هذه المعرفة المتراكمة قد تشكل الأساس لما يسمى غالبًا بالفطرة السليمة. يمكن النظر إلى الفطرة السليمة على أنها مجموعة من نماذج العالم التي يمكن أن تخبر العامل بما هو مرجح ، وما هو معقول ، وما هو مستحيل. باستخدام مثل هذه النماذج من العالم ، يمكن للحيوانات تعلم مهارات جديدة مع عدد قليل جدًا من التجارب. يمكنهم التنبؤ بعواقب أفعالهم ، ويمكنهم التفكير والتخطيط والاستكشاف وتخيل حلول جديدة للمشاكل. الأهم من ذلك ، يمكنهم أيضًا تجنب ارتكاب أخطاء خطيرة عند مواجهة موقف غير معروف ".

من المؤكد أن الفطرة السليمة تستحق النظر إليها ، كما يظهر في الدردشة الصغيرة التالية.

محادثة حديثة

لقد تحدثت مؤخرًا مع GPT 4 حول نمذجة البيانات. سألت عن "25 نوعًا من أنواع نماذج البيانات الأكثر أهمية".

عندما عادت النتيجة ، لاحظت على الفور أن نمذجة الحقائق لم تكن مدرجة في القائمة. بمجرد أن لاحظت ذلك ، تم تعديل النتيجة ، والآن تبدو كما يلي:

 "أعتذر عن هذا الإغفال. نموذج الحقائق هو بالفعل تقنية مهمة لنمذجة البيانات ، تُستخدم لنمذجة الأنظمة المعقدة والتقاط قواعد العمل. يركز على تحديد وتعريف الحقائق التي تصف عمليات النظام ، وكذلك العلاقات بين تلك الحقائق.

لذلك ، يجب أيضًا تضمين نموذج الحقائق في قائمة نماذج البيانات المهمة. فيما يلي قائمة محدثة لأهم 25 نموذجًا للبيانات ، بما في ذلك نموذج الحقائق:

    نموذج البيانات العلائقية

    نموذج بيانات علاقة الكيان (ER)

    نموذج بيانات كائني التوجه

    نموذج بيانات الكائن العلائقية

    نموذج البيانات الهرمي

    نموذج بيانات الشبكة

    نموذج بيانات الأبعاد

    نموذج بيانات الملف الثابت

    نموذج البيانات الدلالية

    نموذج البيانات المفاهيمية

    نموذج البيانات المنطقية

    نموذج البيانات المادية

    نموذج بيانات مستودع البيانات

    نموذج بيانات مارت البيانات

    نموذج بيانات XML

    نموذج بيانات NoSQL

    نموذج البيانات المستند إلى المستند

    نموذج بيانات العمود-الأسرة

    نموذج بيانات القيمة الأساسية

    نموذج بيانات الرسم البياني

    نموذج بيانات RDF

    نموذج بيانات OWL

    نموذج بيانات UML

    نموذج بيانات EAV

    نموذج بيانات OLAP

    نموذج الحقائق

أشكركم على لفت انتباهي إليها ".

أنا: هل قبو البيانات ونماذج الإرساء أنواع نماذج بيانات مهمة أيضًا؟

"نعم ، يعد كل من نماذج خزنة البيانات ونماذج الارتساء أنواعًا مهمة من نماذج البيانات التي اكتسبت شعبية في السنوات الأخيرة.

معاينة بحثية مجانية. قد ينتج عن ChatGPT معلومات غير دقيقة عن الأشخاص أو الأماكن أو الحقائق ". 

*** نهاية الدردشة مع إصدار 23 مارس ChatGPT.

نعم ، أنتجت معلومات غير دقيقة. وأضاف المحتوى إلى النتيجة في خطوة إضافية "هندسة سريعة".

يغريني أن أقول: Pippi ، قم بواجبك!

لا يمكن فهم الحياة إلا بشكل عكسي ، لكن يجب أن نعيشها إلى الأمام

العنوان الفرعي أعلاه هو اقتباس من الفيلسوف الدنماركي سورين كيركيغارد:

مصدر الصورة: المكتبة الملكية ، الدنمارك ، 1923 ، ملكية عامة ، عبر ويكيميديا ​​كومنز

النماذج اللغوية الكبيرة (LLMs) هي بالضرورة نتاج حقائق الماضي عن الأحداث الماضية. لكننا ، كمستهلكين للذكاء الاصطناعي ، نحتاج إلى تنبؤات موثوقة إلى الأمام. بالرغم من أن كل "المحولات" أخبار قديمة. 

يعتبر فهم السياقات الماضية والمستقبلية أمرًا جوهريًا. في الواقع ، يعد الذكاء الاصطناعي التوليدي ونتائجه تمرينًا في حساسية السياق - وبعبارة أخرى ، الدلالات ، والمعنى ، والبنية ، والعلاقات ، بمرور الوقت.

هذا هو الانقسام الحقيقي.

تشغيل التنبؤات التوليدية بناءً على محتوى LLM قديم قليلاً يشبه التشغيل في مستودع بيانات من العام الماضي.

تُعرف إضافة التنبؤات أعلى LLM أيضًا باسم الإحصائيات. كل هذا جيد وجيد ، على وجه الخصوص ، إذا تم تزويدك ببعض مؤشرات الجودة والثقة.

هل تحتاج إلى معايير دلالية معيارية؟

نحن ، كمحترفين (مصممي البيانات وعلماء المعلومات) ، يجب أن نتخذ بعض الإجراءات المسؤولة لإجبار أدوات الذكاء الاصطناعي التوليدية على تقييد نفسها بسياق ودلالات معينة. 

يمكن أن يكون نموذجًا للبيانات ومسردًا خاصًا بالمؤسسة ، ولكن يمكن أن يكون أيضًا صناعة أو دولة أو الأنطولوجيا والمفردات الرسمية للاتحاد الأوروبي ، بالإضافة إلى schema.org و Wikidata وما إلى ذلك.
نحتاج إلى أن تظهر نتائج الذكاء الاصطناعي سياقات محددة بوضوح وإظهار التوافق مع دلالات محددة.

هناك العديد من الاحتمالات في هذا الفضاء.

أولاً وقبل كل شيء ، أود أن أعرف:

هل هذه النتيجة مبنية على حقائق ثابتة وموثقة بالكامل؟ أو هل يمكن أن تحدث الدلالات والتأكيدات الخيالية؟ بمعنى آخر ، هل هذه حقيقة أم خيال؟ هذا قريب من الإصرار على تسمية عامة تعني "تحتوي على حقائق معتمدة فقط"!

إذا كنت في قطاع منظم بشدة مثل الحكومة أو المالية أو الأدوية ، أود أن أعرف الثقة التي يمكنني الوثوق بها في النتائج. سوف يفعلون عقد في المحكمة، على سبيل المثال؟ هل هي متعددة الفترات الزمنية (أو على الأقل نقطية)؟

يبحث في إدارة الجودة بشكل عام (انظر ، على سبيل المثال ، مجموعة ISO 9000 QMS من المعايير) هناك العديد من جوانب ISO 9000 التي يمكن أن تتعلم منها إدارة البيانات. لذلك ، يمكن تصنيف نظام الذكاء الاصطناعي التوليدي وفقًا لمنظور الجودة الذي يتوافق معه. هذا يمكن أن يؤدي إلى معيار إدارة الامتثال الدلالي ISO؟ على غرار عائلة ISO 9000.

جانب مهم آخر هو النوعية. فكر في الأنطولوجيا FOAF التي بدأنا بها. في الواقع ، هناك العديد من المعايير والمفردات ونماذج بيانات الصناعة الدولية والوطنية التي من المنطقي تقديم الالتزام بيان حول نتائج الذكاء الاصطناعي.

هنا ، اتبع بعض الأمثلة للوسائط الدلالية "المعيارية" (أو على الأقل شائعة الاستخدام) ، والمفيدة لرسم خرائط المعنى على الإنترنت المأخوذة من كتاب أندرو إلياديس الأخير بهذا العنوان (andrewiliadis.com):

ما ورد أعلاه مجرد أمثلة قليلة.

يوجد أيضًا على المستويين الوطني والدولي الكثير من الأنطولوجيا والتصنيفات ونماذج البيانات والمخططات المتاحة للجمهور وماذا لديك. 

حسنًا ، في الواقع ، ما لديك أيضًا ، هو بعض نماذج البيانات المنزلية الخاصة بك. ألن يكون من الجيد إجراء اختبار امتثال بين دلالاتك الخاصة وتلك الخاصة بـ AI LLM؟ يمكن أن تكون ميزة منتج رائعة لمنظمة العفو الدولية ، إذا سألتني.

متوافق مع الذكاء الاصطناعي التوليدي يمكن التحقق منه

إذا كنت أعمل في القطاع المالي ، فقد أرغب في معرفة ما إذا كانت النتيجة المقترحة ، بالإضافة إلى نموذج اللغة ، قد تم اعتمادهما للامتثال لمفردات ودلالات FIBO (الأنطولوجيا التجارية للصناعة المالية التي نشرها مجلس EDM) . إذا كان بإمكاني الاعتماد على ذلك ، فأنا في المنزل بأمان. إذا لم يكن الأمر كذلك ، فلا بد لي من قراءة وتفسير واستخلاص استنتاجات إضافية - جنبًا إلى جنب مع مجموعات من الزملاء في قسم الامتثال التنظيمي. في القطاع المالي ، يتم توجيه الموظفين بالفعل على هذا الطريق ، مع BCBS 239 معيار طالبًا بالتصنيفات والمعماريات المتكاملة. 

ليس فقط النتائج ، ولكن أيضًا المحولات وأجزاء أخرى من نماذج اللغة ، يجب أن تكون متوافقة بشكل يمكن التحقق منه. 

أعتقد بصدق أن العالم يحتاج إلى ضمان الجودة على هذه المستويات ، إذا كان للأعمال التجارية والسياسة أن تتم على أساس الذكاء الاصطناعي التوليدي على نطاق أوسع. لذا ، أحضر تلك المولدات المعتمدة للذكاء الاصطناعي! وامنحنا ، الأشخاص الذين لديهم HI ، فرصة!

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة