شعار زيفيرنت

قواعد البيانات مقابل Hadoop مقابل التخزين السحابي

التاريخ:

كيف يمكن لمنظمة أن تزدهر
في عشرينيات القرن العشرين ، وقت متغير ومربك مع إدارة بيانات مهمة
المطالب وخيارات النظام الأساسي مثل مستودعات البياناتHadoop، و ال
غيم؟ محاولة توفير المال عن طريق التضميد واستخدام نفس البيانات القديمة
ينتهي الأمر بالهندسة المعمارية بدفع البيانات صعودًا ، مما يجعل استخدامها أكثر صعوبة. إعادة التفكير
يعد استخدام البيانات وتخزينها وحسابها خطوة ضرورية لاستعادة البيانات
التحكم وفي أفضل البيئات التقنية لدفع استراتيجيات الأعمال والبيانات إلى الأمام.

وليام ماكنايت ، رئيس شركة إستراتيجيات البيانات مجموعة ماكنايت الاستشارية، قدم نصائحه حول أفضل منصات البيانات والبنى في عرضه التقديمي ، قواعد البيانات مقابل Hadoop مقابل التخزين السحابي في DATAVERSITY® Enterprise Analytics عبر الإنترنت مؤتمر. أوضح McKnight أن إدارة البيانات تتطلب اليوم الارتقاء إلى مستوى التكنولوجيا الأنسب للحصول على جميع البيانات بسرعة وفعالية. هو قال:

تدريب مباشر عبر الإنترنت: نسيج البيانات وشبكة البيانات

تعرف على كيفية تصميم وتنفيذ نسيج بيانات أو شبكة بيانات أو مزيج من الاثنين معًا في مؤسستك - 25-26 مايو 2022.

"الحصول على جميع البيانات تحت السيطرة هو الشيء الذي أقوله كثيرًا. وهذا يعني جعل البيانات قابلة للإدارة وجيدة الأداء ومتاحة لقاعدة مستخدمينا وقابلة للتصديق ومفيدة للشركة لتصبح قائمة على البيانات ".

أصبح التعامل مع البيانات بشكل جيد أمرًا بالغ الأهمية بشكل خاص للمستقبل ، وهو المستقبل الذي يعزز فيه الذكاء الاصطناعي (AI) تحليل الأعمال ويتخلل العمليات. للعمل بنجاح ، يجب أن يكون الذكاء الاصطناعي جيدًا جودة البيانات للتدريب والاختبار والاستخدام. علاوة على ذلك ، يجب أن تغطي هذه البيانات جميع الأنواع ، وليس فقط الجداول والتقارير الثابتة النموذجية التي تم إنشاؤها من Microsoft Excel. تلعب البيانات الديناميكية من تسجيلات مركز الاتصال وسجلات الدردشة وبيانات المستشعر المتدفقة والمصادر الأخرى دورًا أساسيًا في دعم مبادرات الذكاء الاصطناعي واحتياجات العمل.

تتضمن الاستفادة من الذكاء الاصطناعي والبيانات النظر إلى ما هو أبعد من تقارير الأعمال الموجودة الآن لمعرفة سبب وجودها وكيف يمكن لأنواع البيانات المختلفة - بما في ذلك البيانات شبه المنظمة وغير المنظمة - أن تعزز النتائج. تتخذ الشركات هذه الخطوة التالية من خلال تقييم كيفية عمل هندسة البيانات والبرامج الفنية تفعل مع استخدام البيانات. يؤكد McKnight ، "لقد رأيت هذه المرة ومرة ​​أخرى: الشركات تدفع مبالغ زائدة مقابل البيانات لأنها موجودة في النظام الأساسي الخطأ." يستلزم نقل البيانات إلى البيئات المناسبة لتحسين المعالجة فهم مجموعة متنوعة من الحلول التقنية وكيفية ملاءمة الحلول المناسبة في هندسة البيانات الخاصة بالمؤسسة.

ثلاثة قرارات رئيسية

توصي McKnight
اتخاذ ثلاثة قرارات مهمة عند التفكير في منصة بيانات للبيانات
العمارة:

  • نوع مخزن البيانات: تختار الشركات بين خيارين لتخزين البيانات: قواعد البيانات واستخدام نظام التدرج المستند إلى الملفات. قواعد البيانات ، وخاصة تلك العلائقية ، تزدهر بالبيانات المنظمة. قاعدة بيانات علائقية تشكل الهندسة المعمارية أكثر من 90٪ من مشتريات حلول بيانات الأعمال. تعمل الأنظمة المستندة إلى الملفات ، مثل Hadoop ، بشكل أفضل على الحفاظ على البيانات الضخمة ، والتي تشمل البيانات غير المنظمة وشبه المنظمة.
  • وضع مخزن البيانات: بمجرد أن تختار الشركة منصات تخزين البيانات الخاصة بها ، فإنها تحتاج إلى إيجاد مكان لوضعها. تتضمن الخيارات في مقر الشركة أو في السحابة ، حيث يستضيف بائعو الجهات الخارجية معلومات الشركة في مراكز البيانات الخاصة بهم. في الماضي ، كانت معظم بيانات المؤسسة تعيش عادةً في الموقع. ولكن مع استمرار نمو كميات البيانات بشكل كبير ، يمكن للسحابة - وخاصة السحابة العامة - توسيع نطاق بيانات الأعمال خارج الموقع بشكل أفضل وبتكلفة أقل.
  • هندسة عبء العمل: تختلف طلبات البيانات. تحتاج الشركات إلى بيانات في الوقت الفعلي للعمليات التجارية والمعاملات القصيرة والمتكررة مثل المبيعات والمخزون. تتطلب الشركات أيضًا بيانات ما بعد التشغيل لتحليل الفرص والتنبؤ وتوجيه اتخاذ القرارات التنفيذية. أعباء العمل التحليلية غالبًا ما تؤدي إلى استعلامات أطول وأكثر تعقيدًا تتطلب نوعًا مختلفًا تمامًا من هندسة البيانات عن المهام التشغيلية.

التحكم في البيانات باستخدام مستودعات البيانات وتقنيات البيانات الضخمة (Hadoop)

يقول McKnight أن كليهما مستودعات البيانات و Hadoop بحاجة إلى عامل في هندسة بيانات الشركة. تدرك العديد من الشركات قيمة تنظيم البيانات باستخدام تقنيات قواعد البيانات العلائقية. تمثل مستودعات البيانات عنصرًا ضروريًا لشركة متوسطة الحجم أو كبيرة لأنها توفر نظامًا أساسيًا مشتركًا يوحد البيانات على مستوى المؤسسة. علاوة على ذلك ، يمكن البحث عن بيانات المستودعات وإعادة استخدامها وتلخيصها بالإضافة إلى توفير تكلفة إعادة بناء نفس المخطط مرارًا وتكرارًا. لكن الشركات تحتاج أيضًا إلى التفكير في أنواع البيانات الجديدة غير المهيكلة وشبه المهيكلة ، والتي تتطلب هياكل البيانات الضخمة مثل Hadoop.

سوف تريد الشركات منصات البيانات الضخمة الخاصة بهم علم البيانات ومشاريع الذكاء الاصطناعي ، من بين أمور أخرى. تعمل بحيرات البيانات و Hadoop بشكل أفضل وأسرع وأرخص مع كميات كبيرة من بيانات المؤسسة الواسعة. قد تُخصم الشركات بعض أنواع البيانات الأحدث هذه ، لكن بعض حالات الاستخدام تتطلبها ، بما في ذلك الحملات التسويقية ، وتحليل الاحتيال ، وتحليل حركة المرور على الطرق ، وتحسين التصنيع. أصبحت البيانات غير المنظمة وشبه المنظمة ضرورة ، مما يجعل Hadoop (وإنشاءات بحيرة البيانات الأخرى) ومستودعات البيانات مطلبًا تجاريًا.

قواعد البيانات التحليلية وتخزين بحيرة البيانات في السحابة

بعد اختيار مخزن البيانات
اكتب ، تحتاج الشركات إلى معرفة مكان للاحتفاظ بالبيانات. يرى ماكنايت
دورات حياة البيانات الكاملة في السحابة كضرورة عمل لرفع مستوى إدارة البيانات ،
في الغالب من خلال قواعد البيانات التحليلية وتخزين بحيرة البيانات.

وجدت McKnight ، من خلال اثنتي عشرة دراسة معيارية نُشرت في العام الماضي ، أن قواعد البيانات التحليلية تعمل بشكل أفضل في السحابة. وأوضح أيضًا مزايا قاعدة البيانات التحليلية السحابية الأخرى:

"توفر السحابة الآن خيارات جذابة ، وقوة SQL ، واقتصاديات أفضل (الدفع عند الاستخدام) ، والخدمات اللوجستية (إدارة وتنظيم مبسطة) ، وقابلية التوسع (المرونة والقدرة على توسيع المجموعة في دقائق)."

قواعد البيانات التحليلية السحابية لها
بنية أكثر وضوحًا ومرونة تتماشى بشكل أفضل مع
بيانات ديناميكية بتكلفة أقل.

بالإضافة إلى وضع قواعد البيانات التحليلية في السحابة ، تستفيد الشركات من الاحتفاظ ببحيرات البيانات تخزين كائن السحابة. يعيّن تخزين كائن السحابة وحدات البيانات المنفصلة معًا في بيئة غير هرمية. تتوسع هذه التقنية باستمرار وتضغط البيانات بشكل أفضل من مركز البيانات المحلي ، مما يقلل من تكاليف تخزين بحيرة البيانات. علاوة على ذلك ، فإن بحيرات البيانات التي تستفيد من تخزين الكائنات السحابية تفصل بين "الحوسبة" و "التخزين" بشكل أفضل ، مما يحسن الأداء والقدرة على ضبط موارد الحوسبة أو قياسها أو تبادلها.

ليست كل البيانات تنتمي إلى السحابة. على سبيل المثال ، تعمل استعلامات البيانات وأنواع معينة من قواعد البيانات بشكل أفضل في الموقع. بينما بحيرات البيانات وأظهر Hadoop أداءً أفضل كتخزين ، فهم يستردون البيانات بشكل أفضل على الموقع من خلال نظام الملفات الموزعة Hadoop (HDFS). في تجربة McKnight ، يتمتع HDFS بأداء استعلام أفضل بمرتين إلى ثلاث مرات من أداء السحابة. علاوة على ذلك ، يتطلب Hadoop بعض الحلول التي يمكن معالجتها بشكل أفضل في مكان العمل. لذا ، فإن التنسيب في الموقع له بعض القيمة ، اعتمادًا على احتياجات العمل.

موازنة أعباء العمل التشغيلية والتحليلية

أثناء تخزين البيانات
تلعب الأنواع والمواضع أدوارًا مهمة في اختيار نظام أساسي مختلف
تتطلب أعباء العمل أيضًا هندسة مختلفة. تميل الأنشطة التشغيلية إلى
تحدث بشكل ديناميكي في الوقت الفعلي للحفاظ على استمرار العمل. إنها تتطلب جدا
أداء عالي. من ناحية أخرى ، تحتاج التحليلات إلى سريعة ومعقدة و
استعلامات معقدة لاسترداد معلومات عالية الجودة ، مما يساعد قادة الأعمال
اتخاذ قرارات أفضل. تتطلب المهام التحليلية عمليات بحث عن المعلومات لتشغيلها
بسرعة وبدقة.

في كلتا الحالتين،
تجعل مستودعات البيانات العمليات والتحليل أكثر كفاءة وقدرة.
يقول McKnight ، "إنها حقيقة ، واحدة من أهم الأماكن التي يمكنك القيام بها
وضع دولار واحد ، من حيث إدارة البيانات ، هو مستودع البيانات ". لكن،
لم تعد بنية مستودع البيانات واحدة تناسب الجميع.  

تتخصص مستودعات البيانات في مجالات معينة ، مثل تحويل تجربة العملاء أو إدارة المخاطر أو ابتكار المنتجات. وحتى ذلك الحين ، فإن مجموعات البيانات المستقلة - المستودعات الموضوعية المنحى لوظائف تجارية محددة مثل العمليات المالية أو المبيعات - قد يكون ضروريًا لزيادة أعباء العمل من خلال مستودع البيانات. تحتاج أحمال العمل التحليلية إلى مستودعات بيانات تحتوي على تحليلات جوهرية في قاعدة البيانات ، وإمكانيات في الذاكرة ، وتوجيه عمودي ، ولغات برمجة حديثة. للحصول على أفضل ما في العديد من العوالم ، تجمع الشركات بين عدد قليل من مستودعات البيانات المختلفة لتلبية احتياجات أعمالها على أفضل وجه.

ليس كل
يمكن معالجة أعباء العمل التشغيلية والتحليلية من خلال مستودعات البيانات المتخصصة ،
وقد تكون تقنيات البيانات الضخمة ضرورية لتحقيق أداء وظيفي وتحليلي أسرع
أداء في الوقت الحقيقي. يمكن أن يعني هذا إقران بحيرة البيانات مع تحليل
محرك أو التطلع إلى قاعدة بيانات مختلطة "تعالج طلبي العمل على حد سواء
ونماذج التعلم الآلي في وقت واحد مع أداء سريع وخفض
كما يقول ماكنايت. لذلك ، تلعب تقنيات البيانات الضخمة مثل Hadoop أيضًا
دورًا مهمًا في توسيع نطاق العمليات وتحليل أعباء العمل ، كما هو موضح أيضًا
في قواعد بيانات الرسم البياني.

قواعد بيانات الرسم البياني الاستفادة من بيئة NoSQL لربط الكيانات وخصائصها من خلال شبكة أو شجرة. يمكن أن توفر نظرة خاطفة سريعة على قاعدة بيانات الرسم البياني الوقت والطاقة التي يتم إنفاقها على استعلام SQL المعقد وتوفر ، كما يقول McKnight ، "أنماطًا غير واضحة في البيانات". تتمثل ميزة قواعد بيانات الرسم البياني ، بالنسبة إلى McKnight ، في أنها تعرض بعض المعلومات بدقة أكبر وأداء أفضل من التقرير الذي تم إنشاؤه بواسطة مستودع البيانات.

المنظمات
بحاجة إلى فهم منصات البيانات التي تدير أعباء عمل البيانات المختلفة ،
المواضع وأنواعها الأفضل. يؤكد McKnight أن الشركات سوف تفعل ذلك
البقاء على قيد الحياة والازدهار عندما يكتشفون كيفية إنشاء مستودعات البيانات ،
Hadoop والحوسبة السحابية معًا لتلبية بياناتهم واستراتيجية أعمالهم
يحتاج. ما إذا كانت الشركات تخطط لشراء تقنيات جديدة أو استخدام ما هو موجود
اليد ، وإيجاد طريقة مناسبة لاستخدام هذه الأدوات الثلاثة معًا يجعل الحصول على
البيانات تحت السيطرة أكثر احتمالا.

هل تريد معرفة المزيد عن الأحداث القادمة في DATAVERSITY؟ تحقق من مجموعتنا الحالية من المؤتمرات المباشرة وجهاً لوجه عبر الإنترنت هنا.

إليك مقطع فيديو العرض التقديمي عبر الإنترنت لـ Enterprise Analytics:

الصورة المستخدمة بموجب ترخيص من Shutterstock.com

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة