التعلم الآلي غير الخاضع للإشراف لقد برزت التحليلات كأداة قوية ل إكتشاف عيب خلقي في المشهد الغني بالبيانات اليوم، خاصة مع الحجم المتزايد للبيانات المولدة آليًا. يوفر اكتشاف الحالات الشاذة أثناء البث رؤى في الوقت الفعلي حول حالات الشذوذ في البيانات، مما يتيح الاستجابة الاستباقية. أمازون أوبن سيرش سيرفرليس ويركز على توفير قابلية التوسع وإدارة أعباء عمل البحث بشكل سلس؛ ابتلاع Amazon OpenSearch يكمل ذلك من خلال توفير حل قوي للكشف عن الحالات الشاذة في البيانات المفهرسة.
في هذا المنشور، نقدم حلاً باستخدام OpenSearch Ingestion الذي يمكّنك من إجراء الكشف عن الحالات الشاذة أثناء البث داخل بيئة AWS الخاصة بك.
الكشف عن الحالات الشاذة أثناء البث باستخدام OpenSearch Ingestion
يجعل OpenSearch Ingestion عملية الكشف عن الحالات الشاذة أثناء البث واضحة وبتكلفة أقل. يساعدك اكتشاف الحالات الشاذة أثناء البث على توفير الفهرسة وتجنب الحاجة إلى موارد واسعة النطاق للتعامل مع البيانات الضخمة. فهو يتيح للمؤسسات تطبيق الموارد المناسبة في الوقت المناسب، وإدارة البيانات الكبيرة بكفاءة وتوفير المال. يمكن أن يؤدي استخدام وكلاء الشحن النظيرين والمعالجات المجمعة إلى جعل الأمور أكثر تعقيدًا وتكلفة؛ يعمل OpenSearch Ingestion على تقليل هذه المشكلات.
دعونا نلقي نظرة على حالة استخدام توضح تكوين YAML لتكوين OpenSearch Ingestion لاكتشاف الحالات الشاذة أثناء البث.
حل نظرة عامة
في هذا المثال، نستعرض عملية إعداد OpenSearch Ingestion باستخدام أداة الكشف العشوائي عن شذوذات الغابات المقطوعة لمراقبة أعداد السجلات خلال فترة 5 دقائق. نقوم أيضًا بفهرسة السجلات الأولية لتقديم عرض شامل لتدفق البيانات الواردة. إذا كانت حالة الاستخدام الخاصة بك تتطلب تحليل السجلات الأولية، فيمكنك تبسيط العملية عن طريق تجاوز المسار الأولي والتركيز مباشرة على اكتشاف الحالات الشاذة أثناء البث، وفهرسة الحالات الشاذة المحددة فقط.
يوضح الرسم البياني التالي بنية الحلول لدينا.
يحدد التكوين مساري توصيل OpenSearch Ingestion. الأول، غير المتعلق بالإعلانات، يستوعب بيانات HTTP، ويضع الطوابع الزمنية عليها، ويعيد توجيهها إلى كل من المسار الإعلاني وفهرس OpenSearch، غير الفهرس الإعلاني. أما المسار الثاني، وهو المسار الإعلاني، فيتلقى هذه البيانات، ويقوم بالتجميع بناءً على المعرف خلال نافذة مدتها 5 دقائق، ويقوم بالكشف عن الحالات الشاذة. يتم تخزين النتائج في مؤشر الشذوذ الإعلاني. يعرض هذا الإعداد معالجة البيانات واكتشاف الحالات الشاذة والتخزين داخل خدمة OpenSearch، مما يعزز قدرات التحليل.
تنفيذ الحل
أكمل الخطوات التالية لإعداد الحل:
- إنشاء دور خط أنابيب.
- قم بإنشاء مجموعة.
- إنشاء خط أنابيب الذي تحدد فيه دور خط الأنابيب.
يتولى المسار هذا الدور من أجل تسجيل الطلبات إلى نقطة نهاية مجموعة OpenSearch Serverless. حدد قيم المفاتيح ضمن تكوين المسار التالي:
- في حالة
sts_role_arn
، حدد Amazon Resource Name (ARN) لدور المسار الذي قمت بإنشائه. - في حالة
hosts
، حدد نقطة نهاية المجموعة التي قمت بإنشائها. - المجموعات
serverless
الى الحقيقة.
للحصول على دليل تفصيلي حول المعلمات المطلوبة وأي قيود، راجع المكونات الإضافية والخيارات المدعومة لخطوط أنابيب Amazon OpenSearch Ingestion.
- بعد تحديث التكوين، تأكد من صحة إعدادات خط الأنابيب الخاص بك عن طريق الاختيار التحقق من صحة خط الأنابيب.
سيعرض التحقق الناجح رسالة تفيد "تم التحقق من صحة تكوين خط الأنابيب." كما هو موضح في لقطة الشاشة التالية.
إذا فشل التحقق من الصحة، راجع استكشاف أخطاء خدمة Amazon OpenSearch وإصلاحها لاستكشاف الأخطاء وإصلاحها والتوجيه.
تقدير التكلفة لاستيعاب OpenSearch
يتم محاسبتك فقط على عدد استيعاب وحدات حساب OpenSearch (وحدات OCU للابتلاع) المخصصة لخط الأنابيب، بغض النظر عما إذا كانت هناك بيانات تتدفق عبر خط الأنابيب. يستوعب OpenSearch Ingestion أعباء العمل الخاصة بك على الفور عن طريق زيادة سعة خط الأنابيب لأعلى أو لأسفل بناءً على الاستخدام. للحصول على نظرة عامة على النفقات، راجع ابتلاع Amazon OpenSearch.
يعرض الجدول التالي التكاليف الشهرية التقريبية استنادًا إلى الإنتاجية المحددة واحتياجات الحوسبة. لنفترض أن العملية تتم من 8:00 صباحًا إلى 8:00 مساءً في أيام الأسبوع، بتكلفة قدرها 0.24 USD لكل وحدة OCU في الساعة.
الصيغة ستكون: إجمالي التكلفة/الشهر = متطلبات OCU * سعر OCU * الساعات/اليوم * الأيام/الشهر.
الإنتاجية | الحساب مطلوب (OCUs) | التكلفة الإجمالية/الشهر (بالدولار الأمريكي) |
1 جيجابايت في الثانية | 10 | 576 |
10 جيجابايت في الثانية | 100 | 5760 |
50 جيجابايت في الثانية | 500 | 28800 |
100 جيجابايت في الثانية | 1000 | 57600 |
500 جيجابايت في الثانية | 5000 | 288000 |
تنظيف
عند الانتهاء من استخدام الحل، احذف الموارد التي قمت بإنشائها، بما في ذلك دور المسار ومسار التدفق والمجموعة.
نبذة عامة
باستخدام OpenSearch Ingestion، يمكنك استكشاف اكتشاف الحالات الشاذة أثناء البث باستخدام خدمة OpenSearch. توضح حالة الاستخدام في هذا المنشور كيف يعمل OpenSearch Ingestion على تبسيط العملية، وتحقيق المزيد بموارد أقل. ويعرض قدرة الخدمة على تحليل معدلات السجل، وإنشاء إشعارات بالحالات الشاذة، وتمكين الاستجابة الاستباقية للحالات الشاذة. باستخدام OpenSearch Ingestion، يمكنك تحسين الكفاءة التشغيلية وتعزيز قدرات إدارة المخاطر في الوقت الفعلي.
اترك أي أفكار وأسئلة في التعليقات.
حول المؤلف
روبيش تيواري، مهندس حلول AWS، متخصص في تحديث التطبيقات مع التركيز على تحليلات البيانات والبحث المفتوح والذكاء الاصطناعي التوليدي. وهو معروف بإيجاد حلول آمنة وقابلة للتطوير تستفيد من التكنولوجيا السحابية لتحقيق نتائج أعمال تحويلية، كما يخصص أيضًا الوقت لمشاركة المجتمع وتبادل الخبرات.
موثو بيتشايماني هو متخصص بحث مع Amazon OpenSearch Service. يقوم ببناء تطبيقات وحلول بحث واسعة النطاق. موثو مهتم بموضوعات الشبكات والأمن ، ومقره أوستن ، تكساس.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/big-data/in-stream-anomaly-detection-with-amazon-opensearch-ingestion-and-amazon-opensearch-serverless/