أمازون بيدروك توفر مجموعة واسعة من النماذج من Amazon وموفري الطرف الثالث، بما في ذلك Anthropic وAI21 وMeta وCohere وStability AI، وتغطي نطاقًا واسعًا من حالات الاستخدام، بما في ذلك إنشاء النصوص والصور والتضمين والدردشة والوكلاء رفيعي المستوى. مع المنطق والتنسيق، وأكثر من ذلك. قواعد المعرفة لأمازون بيدروك يتيح لك إنشاء تطبيقات توليد الاسترجاع المعزز (RAG) عالية الأداء ومخصصة أعلى AWS ومخازن المتجهات التابعة لجهات خارجية باستخدام نماذج AWS ونماذج الجهات الخارجية. تقوم قواعد المعرفة الخاصة بـ Amazon Bedrock بأتمتة مزامنة بياناتك مع متجر المتجهات الخاص بك، بما في ذلك تغيير البيانات عند تحديثها، وتحميل المستندات، والتقطيع، بالإضافة إلى التضمين الدلالي. فهو يسمح لك بتخصيص مطالبات RAG واستراتيجيات الاسترداد بسلاسة - فنحن نقدم إسناد المصدر، ونتعامل مع إدارة الذاكرة تلقائيًا. قواعد المعرفة لا تحتوي على خادم تمامًا، لذلك لا تحتاج إلى إدارة أي بنية أساسية، وعند استخدام قواعد المعرفة، لن يتم محاسبتك إلا مقابل النماذج وقواعد البيانات المتجهة والتخزين الذي تستخدمه.
RAG هي تقنية شائعة تجمع بين استخدام البيانات الخاصة ونماذج اللغات الكبيرة (LLMs). يبدأ RAG بخطوة أولية لاسترداد المستندات ذات الصلة من مخزن البيانات (وهو في الغالب فهرس متجه) بناءً على استعلام المستخدم. ثم يستخدم نموذجًا لغويًا لإنشاء استجابة من خلال النظر في كل من المستندات المستردة والاستعلام الأصلي.
في هذا المنشور، نوضح كيفية إنشاء سير عمل RAG باستخدام قواعد المعرفة لـ Amazon Bedrock لحالة استخدام اكتشاف الأدوية.
نظرة عامة على قواعد المعرفة لـ Amazon Bedrock
تدعم قواعد المعرفة الخاصة بـ Amazon Bedrock نطاقًا واسعًا من أنواع الملفات الشائعة، بما في ذلك .txt، و.docx، و.pdf، و.csv، والمزيد. لتمكين الاسترداد الفعال من البيانات الخاصة، تتمثل الممارسة الشائعة في تقسيم هذه المستندات أولاً إلى أجزاء يمكن التحكم فيها. قامت قواعد المعرفة بتطبيق إستراتيجية التجزئة الافتراضية التي تعمل بشكل جيد في معظم الحالات للسماح لك بالبدء بشكل أسرع. إذا كنت تريد المزيد من التحكم، تتيح لك قواعد المعرفة التحكم في استراتيجية التقسيم من خلال مجموعة من الخيارات المكونة مسبقًا. يمكنك التحكم في الحد الأقصى لحجم الرمز المميز ومقدار التداخل الذي سيتم إنشاؤه عبر القطع لتوفير سياق متماسك للتضمين. تدير قواعد المعرفة الخاصة بـ Amazon Bedrock عملية مزامنة البيانات من جهازك خدمة تخزين أمازون البسيطة (Amazon S3)، ويقسمها إلى أجزاء أصغر، وينشئ عمليات تضمين متجهة، ويخزن عمليات التضمين في فهرس متجه. تأتي هذه العملية مع إدارة ذكية للفرق والإنتاجية والفشل.
في وقت التشغيل، يتم استخدام نموذج التضمين لتحويل استعلام المستخدم إلى متجه. يتم بعد ذلك الاستعلام عن فهرس المتجه للعثور على مستندات مشابهة لاستعلام المستخدم من خلال مقارنة متجهات المستند بمتجه استعلام المستخدم. في الخطوة الأخيرة، تتم إضافة المستندات المتشابهة لغويًا التي تم استردادها من فهرس المتجهات كسياق لاستعلام المستخدم الأصلي. عند إنشاء استجابة للمستخدم، تتم مطالبة المستندات المتشابهة لغويًا في نموذج النص، جنبًا إلى جنب مع إسناد المصدر لإمكانية التتبع.
تدعم قواعد المعرفة الخاصة بـ Amazon Bedrock قواعد بيانات متجهة متعددة، بما في ذلك أمازون أوبن سيرش سيرفرليس, أمازون أوروراوPinecone وRedis Enterprise Cloud. تسمح واجهات برمجة التطبيقات Retrieve and RetrieveAndGenerate لتطبيقاتك بالاستعلام مباشرة عن الفهرس باستخدام بناء جملة موحد ومعياري دون الحاجة إلى تعلم واجهات برمجة التطبيقات المنفصلة لكل قاعدة بيانات متجهة مختلفة، مما يقلل الحاجة إلى كتابة استعلامات فهرس مخصصة مقابل متجر المتجهات الخاص بك. تأخذ واجهة برمجة التطبيقات Retrieve الاستعلام الوارد، وتحوله إلى ناقل تضمين، وتقوم بالاستعلام عن مخزن الواجهة الخلفية باستخدام الخوارزميات التي تم تكوينها على مستوى قاعدة بيانات المتجهات؛ تستخدم واجهة برمجة التطبيقات RetrieveAndGenerate دورة LLM تم تكوينها بواسطة المستخدم والمقدمة من Amazon Bedrock وتقوم بإنشاء الإجابة النهائية باللغة الطبيعية. يقوم دعم التتبع الأصلي بإبلاغ التطبيق الطالب بالمصادر المستخدمة للإجابة على السؤال. بالنسبة لتطبيقات المؤسسات، تدعم قواعد المعرفة خدمة إدارة مفتاح AWS تشفير (AWS KMS)، أوس كلاود تريل التكامل والمزيد.
في الأقسام التالية، نوضح كيفية إنشاء سير عمل RAG باستخدام قواعد المعرفة لـ Amazon Bedrock، المدعومة بمحرك ناقل OpenSearch Serverless، لتحليل مجموعة بيانات التجارب السريرية غير المنظمة لحالة استخدام اكتشاف الأدوية. هذه البيانات غنية بالمعلومات ولكنها يمكن أن تكون غير متجانسة إلى حد كبير. يعد التعامل السليم مع المصطلحات والمفاهيم المتخصصة بتنسيقات مختلفة أمرًا ضروريًا لاكتشاف الرؤى وضمان التكامل التحليلي. باستخدام قواعد المعرفة الخاصة بـ Amazon Bedrock، يمكنك الوصول إلى المعلومات التفصيلية من خلال استعلامات بسيطة وطبيعية.
قم ببناء قاعدة معرفية لـ Amazon Bedrock
في هذا القسم، نعرض عملية إنشاء قاعدة معرفية لـ Amazon Bedrock عبر وحدة التحكم. أكمل الخطوات التالية:
- على وحدة تحكم Amazon Bedrock، أسفل تزامن في جزء التنقل ، اختر قاعدة المعرفة.
- اختار إنشاء قاعدة المعرفة.
- في مجلة تفاصيل قاعدة المعرفة القسم، أدخل اسمًا ووصفًا اختياريًا.
- في مجلة أذونات IAM القسم، حدد إنشاء دور خدمة جديد واستخدامه.
- في حالة دور اسم الخدمة، أدخل اسمًا لدورك، والذي يجب أن يبدأ به
AmazonBedrockExecutionRoleForKnowledgeBase_
. - اختار التالى.
- في مجلة مصدر البيانات القسم، أدخل اسمًا لمصدر البيانات الخاص بك وS3 URI حيث توجد مجموعة البيانات. تدعم قواعد المعرفة تنسيقات الملفات التالية:
- نص عادي (.txt)
- تخفيض السعر (.md)
- لغة ترميز النص التشعبي (.html)
- مستند Microsoft Word (.doc/.docx)
- قيم مفصولة بفواصل (.csv)
- جدول بيانات Microsoft Excel (.xls/.xlsx)
- تنسيق المستندات المحمولة (pdf.)
- تحت إعدادات إضافية¸ اختر استراتيجية التقطيع المفضلة لديك (لهذا المنشور، نختار قطع حجم ثابت) وحدد حجم القطعة والتراكب بالنسبة المئوية. وبدلاً من ذلك، يمكنك استخدام الإعدادات الافتراضية.
- اختار التالى.
- في مجلة نموذج التضمين القسم، اختر نموذج Titan Embeddings من Amazon Bedrock.
- في مجلة قاعدة بيانات المتجهات القسم، حدد إنشاء متجر ناقلات جديد بسرعة، الذي يدير عملية إعداد متجر المتجهات.
- اختار التالى.
- راجع الإعدادات واختر إنشاء قاعدة المعرفة.
- انتظر حتى يكتمل إنشاء قاعدة المعرفة وتأكد من حالتها استعداد.
- في مجلة مصدر البيانات القسم، أو على الشعار الموجود أعلى الصفحة أو النافذة المنبثقة في نافذة الاختبار، اختر مزامنة لبدء عملية تحميل البيانات من حاوية S3، وتقسيمها إلى أجزاء بالحجم الذي حددته، وإنشاء عمليات تضمين متجهة باستخدام نموذج تضمين النص المحدد، وتخزينها في مخزن المتجهات المُدار بواسطة Knowledge Bases لـ Amazon Bedrock.
تدعم وظيفة المزامنة استيعاب المستندات وتحديثها وحذفها من فهرس المتجهات بناءً على التغييرات التي يتم إجراؤها على المستندات في Amazon S3. يمكنك أيضًا استخدام StartIngestionJob
API لتشغيل المزامنة عبر AWS SDK.
عند اكتمال المزامنة، يعرض سجل المزامنة الحالة الانتهاء.
الاستعلام عن قاعدة المعرفة
نوضح في هذا القسم كيفية الوصول إلى المعلومات التفصيلية في قاعدة المعرفة من خلال الاستعلامات المباشرة والطبيعية. نحن نستخدم مجموعة بيانات تركيبية غير منظمة تتكون من ملفات PDF، يتراوح رقم صفحة كل منها من 10 إلى 100 صفحة، ومحاكاة خطة تجربة سريرية لدواء جديد مقترح بما في ذلك طرق التحليل الإحصائي ونماذج موافقة المشاركين. نحن نستخدم قواعد المعرفة لـ Amazon Bedrock retrieve_and_generate
و retrieve
واجهات برمجة التطبيقات مع تكامل أمازون بيدروك لانج تشين.
قبل أن تتمكن من كتابة البرامج النصية التي تستخدم Amazon Bedrock API، ستحتاج إلى تثبيت الإصدار المناسب من AWS SDK في بيئتك. بالنسبة لنصوص بايثون، سيكون هذا هو AWS SDK لـ Python (Boto3):
بالإضافة إلى ذلك، قم بتمكين الوصول إلى نموذج Amazon Titan Embeddings وAnthropic Claude v2 أو v1. لمزيد من المعلومات، راجع الوصول إلى النموذج.
قم بإنشاء أسئلة باستخدام Amazon Bedrock
يمكننا استخدام Anthropic Claude 2.1 لـ Amazon Bedrock لاقتراح قائمة من الأسئلة التي يجب طرحها على مجموعة بيانات التجارب السريرية:
استخدم واجهة برمجة تطبيقات Amazon Bedrock RetrieveAndGenerate
للحصول على تجربة RAG مُدارة بالكامل، يمكنك استخدام قواعد المعرفة الأصلية لـ Amazon Bedrock RetrieveAndGenerate
API للحصول على الإجابات مباشرة:
يمكن الحصول على مصدر المعلومات المذكور عبر الكود التالي (مع تنقيح بعض المخرجات للإيجاز):
من خلال تمرير معرف الجلسة الخاص بـ RetrieveAndGenerate
API، يمكنك الحفاظ على سياق المحادثة وطرح أسئلة المتابعة. على سبيل المثال، بدون السياق، إذا طلبت المزيد من التفاصيل من الإجابة السابقة، فقد لا تتمكن من الإجابة بشكل صحيح:
ولكن من خلال تمرير معرف الجلسة، يستطيع مسار RAG تحديد السياق المقابل وإرجاع الإجابات ذات الصلة:
ويبين الجدول التالي الإجابات المستردة لجميع الأسئلة المقابلة.
سؤال | إجابة |
ما هو الهدف من الدراسة؟ تأكد من أنك تفهم أهداف البحث وما ستتضمنه إجراءات الدراسة. | الغرض من الدراسة هو اختبار ما إذا كان الليثيوم فعالًا في منع تكرار العنف الانتحاري الموجه ذاتيًا لدى المرضى الذين يعانون من الاكتئاب أو الاضطراب ثنائي القطب. |
ما هي المخاطر والفوائد المحتملة؟ يجب أن يشرح النموذج جميع المخاطر المتوقعة أو الآثار الجانبية أو المضايقات التي قد تواجهها من المشاركة. | تشمل المخاطر أو المضايقات المحتملة ما يلي: أسئلة المقابلة التي تسبب عدم الراحة، والآثار الجانبية لأدوية الليثيوم مثل الغثيان، والبراز الرخو، والعطش، وتغيرات التبول، والارتعاش، والصداع، والتعرق، والتعب، وانخفاض التركيز، والطفح الجلدي، وتغيرات الغدة الدرقية، وتفاقم حب الشباب. /الصدفية، وتسمم الليثيوم، والمخاطر إذا توقف الدواء فجأة. وتتمثل الفوائد المحتملة في أن الاختبارات قد تؤدي إلى معلومات جديدة لمساعدة المشارك، وقد يساعد الليثيوم في منع العنف الانتحاري المتكرر لأولئك الذين يعانون من الاكتئاب أو الاضطراب ثنائي القطب. |
ماذا ستتضمن المشاركة؟ احصل على تفاصيل حول الاختبارات أو الأدوية أو تغييرات نمط الحياة أو الإجراءات التي ستخضع لها، ومقدار الوقت الذي ستستغرقه، والمدة التي ستستغرقها الدراسة. | ستتضمن المشاركة إكمال مقابلة واستبيانات تغطي التفكير والسلوكيات وعلاج الصحة العقلية والأدوية وتعاطي الكحول والمخدرات والدعم المنزلي والاجتماعي وفهم الدراسة البحثية. يستغرق هذا حوالي ساعتين ويمكن إجراؤه في جلسات متعددة شخصيًا أو عبر الهاتف. إذا كنت مؤهلاً للدراسة الكاملة، فسيكون هناك حوالي 20 زيارة دراسية على مدار عام واحد. وسيتضمن ذلك تناول أدوية الدراسة، وفحص العلامات الحيوية، واستكمال الاستبيانات، ومراجعة الآثار الجانبية، ومواصلة الرعاية الصحية الطبية والعقلية العادية. |
هل هناك أي تكاليف أو دفعات؟ اسأل عما إذا كنت ستكون مسؤولاً عن أي تكاليف تتعلق بالدراسة أو ستحصل على أموال مقابل المشاركة. | نعم، هناك تكاليف ومدفوعات تمت مناقشتها في نتائج البحث. لن يتم تحصيل رسوم منك مقابل أي علاجات أو إجراءات تشكل جزءًا من الدراسة. ومع ذلك، لا يزال يتعين عليك دفع أي مدفوعات مشتركة معتادة من VA مقابل الرعاية والأدوية غير المرتبطة بالدراسة. لن يتم الدفع لك مقابل المشاركة، ولكن الدراسة ستعوض النفقات المتعلقة بالمشاركة مثل النقل ومواقف السيارات وما إلى ذلك. يتم توفير مبالغ السداد وعملية السداد. |
كيف سيتم حماية خصوصيتي؟ يجب أن يوضح النموذج كيف سيتم الحفاظ على سرية معلوماتك الصحية الشخصية قبل التجربة وأثناءها وبعدها. | ستتم حماية خصوصيتك من خلال إجراء المقابلات على انفراد، وحفظ الملاحظات المكتوبة في ملفات ومكاتب مقفلة، وتخزين المعلومات الإلكترونية في ملفات مشفرة ومحمية بكلمة مرور، والحصول على شهادة السرية من وزارة الصحة والخدمات الإنسانية لمنع الكشف عن المعلومات التي تحدد هويتك . قد تتم مشاركة المعلومات التي تحدد هويتك مع الأطباء المسؤولين عن رعايتك أو عمليات التدقيق والتقييم التي تجريها الوكالات الحكومية، ولكن المحادثات والأوراق المتعلقة بالدراسة لن تحدد هويتك. |
الاستعلام باستخدام Amazon Bedrock Retrieve API
لتخصيص سير عمل RAG الخاص بك، يمكنك استخدام Retrieve API لجلب الأجزاء ذات الصلة بناءً على استعلامك وتمريرها إلى أي LLM مقدمة من Amazon Bedrock. لاستخدام Retrieve API، قم بتعريفها كما يلي:
استرجع السياق المقابل (مع تنقيح بعض المخرجات للإيجاز):
استخراج السياق للقالب الفوري:
قم باستيراد وحدات Python وقم بإعداد قالب المطالبة للإجابة على الأسئلة في السياق، ثم قم بإنشاء الإجابة النهائية:
الاستعلام باستخدام تكامل Amazon Bedrock LangChain
لإنشاء تطبيق أسئلة وأجوبة مخصص وشامل، توفر قاعدة المعرفة لـ Amazon Bedrock التكامل مع LangChain. لإعداد مسترد LangChain، قم بتوفير معرف قاعدة المعرفة وحدد عدد النتائج المراد إرجاعها من الاستعلام:
الآن قم بإعداد LangChain RetrievalQA وقم بإنشاء إجابات من قاعدة المعرفة:
سيؤدي هذا إلى إنشاء إجابات مماثلة لتلك المذكورة في الجدول السابق.
تنظيف
تأكد من حذف الموارد التالية لتجنب تكبد رسوم إضافية:
وفي الختام
توفر Amazon Bedrock مجموعة واسعة من الخدمات المتكاملة لتشغيل تطبيقات RAG على جميع المستويات، مما يجعل من السهل البدء في تحليل بيانات شركتك. تتكامل قواعد المعرفة الخاصة بـ Amazon Bedrock مع نماذج مؤسسة Amazon Bedrock لإنشاء خطوط أنابيب قابلة للتطوير لتضمين المستندات وخدمات استرجاع المستندات لتشغيل مجموعة واسعة من التطبيقات الداخلية والتطبيقات التي تواجه العملاء. نحن متحمسون للمستقبل المقبل، وسوف تلعب ملاحظاتك دورًا حيويًا في توجيه تقدم هذا المنتج. لمعرفة المزيد حول إمكانيات Amazon Bedrock وقواعد المعرفة، راجع قاعدة المعرفة لأمازون بيدروك.
حول المؤلف
مارك روي هو مهندس رئيسي لتعلم الآلة في AWS ، يساعد العملاء على تصميم وبناء حلول AI / ML. يغطي عمل Mark مجموعة واسعة من حالات استخدام ML ، مع اهتمام أساسي برؤية الكمبيوتر والتعلم العميق وتوسيع ML عبر المؤسسة. لقد ساعد الشركات في العديد من الصناعات ، بما في ذلك التأمين والخدمات المالية والإعلام والترفيه والرعاية الصحية والمرافق والتصنيع. يحمل مارك ست شهادات AWS ، بما في ذلك شهادة التخصص في ML. قبل انضمامه إلى AWS ، كان مارك مهندسًا معماريًا ومطورًا وقائدًا في مجال التكنولوجيا لأكثر من 25 عامًا ، بما في ذلك 19 عامًا في الخدمات المالية.
ماني خانوجا هي قائدة تقنية - متخصصون في الذكاء الاصطناعي التوليدي، ومؤلفة الكتاب - التعلم الآلي التطبيقي والحوسبة عالية الأداء على AWS، وعضو مجلس إدارة مجلس إدارة مؤسسة المرأة في تعليم التصنيع. وهي تقود مشاريع التعلم الآلي (ML) في مجالات مختلفة مثل رؤية الكمبيوتر ومعالجة اللغة الطبيعية والذكاء الاصطناعي التوليدي. إنها تساعد العملاء على بناء نماذج كبيرة للتعلم الآلي وتدريبها ونشرها على نطاق واسع. وهي تتحدث في مؤتمرات داخلية وخارجية مثل Re:Invent وWomen in Manufacturing West وندوات عبر الإنترنت على YouTube وGHC 23. وفي أوقات فراغها، تحب الذهاب لمسافات طويلة على طول الشاطئ.
دكتور بايشوان صنيعمل حاليًا كمهندس أول لحلول الذكاء الاصطناعي/تعلم الآلة في AWS، ويركز على الذكاء الاصطناعي التوليدي ويطبق معرفته في علوم البيانات والتعلم الآلي لتوفير حلول أعمال عملية قائمة على السحابة. ومن خلال خبرته في الاستشارات الإدارية وهندسة حلول الذكاء الاصطناعي، فإنه يعالج مجموعة من التحديات المعقدة، بما في ذلك رؤية الكمبيوتر الروبوتية، والتنبؤ بالسلاسل الزمنية، والصيانة التنبؤية، من بين أمور أخرى. يرتكز عمله على خلفية قوية في إدارة المشاريع، والبحث والتطوير في مجال البرمجيات، والمساعي الأكاديمية. خارج العمل، يتمتع الدكتور صن بالتوازن بين السفر وقضاء الوقت مع العائلة والأصدقاء.
ديريك تشو هو مهندس حلول أول في AWS يركز على تسريع رحلة العميل إلى السحابة وتحويل أعمالهم من خلال اعتماد الحلول المستندة إلى السحابة. وتتمثل خبرته في تطبيق المكدس الكامل وتطوير التعلم الآلي. إنه يساعد العملاء على تصميم وبناء حلول شاملة تغطي واجهات المستخدم الأمامية وتطبيقات إنترنت الأشياء وواجهة برمجة التطبيقات وتكامل البيانات ونماذج التعلم الآلي. وفي أوقات فراغه، يستمتع بقضاء الوقت مع عائلته وتجربة التصوير الفوتوغرافي والفيديو.
فرانك وينكلر هو مهندس حلول أول ومتخصص في الذكاء الاصطناعي التوليدي في AWS ومقرها في سنغافورة، ويركز على التعلم الآلي والذكاء الاصطناعي التوليدي. وهو يعمل مع شركات رقمية عالمية لتصميم منتجات وخدمات قابلة للتطوير وآمنة وفعالة من حيث التكلفة على AWS. وفي أوقات فراغه، يقضي وقتًا مع ابنه وابنته، ويسافر للاستمتاع بالأمواج عبر رابطة أمم جنوب شرق آسيا.
نهير شادروالا هو مهندس حلول الذكاء الاصطناعي/تعلم الآلة في فريق الرعاية الصحية العالمية وعلوم الحياة. وتتمثل خبرته في بناء حلول البيانات الضخمة والذكاء الاصطناعي لمشاكل العملاء وخاصة في مجال الطب الحيوي وعلوم الحياة والرعاية الصحية. كما أنه متحمس أيضًا بشأن تقاطع علم المعلومات الكمومية والذكاء الاصطناعي ويستمتع بالتعلم والمساهمة في هذا الفضاء. يستمتع في أوقات فراغه بلعب التنس والسفر والتعرف على علم الكونيات.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/machine-learning/use-rag-for-drug-discovery-with-knowledge-bases-for-amazon-bedrock/