شعار زيفيرنت

تاريخ موجز لهندسة البيانات: تغيير النماذج

التاريخ:

هندسة البيانات هي مجموعة من القواعد والسياسات والنماذج التي تحدد نوع البيانات التي يتم جمعها وكيفية استخدامها ومعالجتها وتخزينها في نظام قاعدة بيانات. تكامل البيانات ، على سبيل المثال ، يعتمد على هندسة البيانات للحصول على إرشادات حول عملية الدمج. بدون التحول من نموذج البرمجة إلى نموذج هندسة البيانات ، ستكون أجهزة الكمبيوتر الحديثة أكثر خرقاء وأبطأ بكثير.

في الأيام الأولى لأجهزة الكمبيوتر ، تم إنشاء برامج مبسطة للتعامل مع أنواع معينة من مشاكل الكمبيوتر ، ولم يتم حتى النظر في مفاهيم مثل تكامل البيانات. تم عزل كل برنامج عن البرامج الأخرى. من الأربعينيات إلى أوائل السبعينيات ، كانت معالجة البرامج هي الشغل الشاغل. لم يتم إعطاء الهيكل المعماري للبيانات بشكل عام الكثير (إن وجد). كان التركيز الرئيسي للمبرمج على جعل الكمبيوتر يقوم بإجراءات محددة تدعم أهداف المنظمة قصيرة المدى. تم استخدام البيانات المحددة على أنها "مطلوبة للبرنامج" فقط ، ولم يتم استخدام أجهزة الكمبيوتر لتخزين البيانات على المدى الطويل. تتطلب استعادة البيانات القدرة على كتابة برامج قادرة على استرجاع معلومات محددة ، والتي كانت تستغرق وقتًا طويلاً ومكلفة.

تعرف على كيفية إنشاء برنامج لقراءة البيانات

يعد تطوير محو الأمية البيانات مفتاحًا لتصبح منظمة قائمة على البيانات - ألق نظرة على دوراتنا عبر الإنترنت للبدء.

التحول من نموذج البرمجة إلى نموذج هندسة قاعدة البيانات

في عام 1970 ، نشر Edgar F. Codd ورقة بحثية (نموذج علائقي للبيانات لبنوك البيانات المشتركة الكبيرة) وصف الإجراء العلائقي لتنظيم البيانات. استندت نظرية Codd إلى الرياضيات المستخدمة في نظرية المجموعات ، جنبًا إلى جنب مع قائمة من القواعد التي أكدت تخزين البيانات بأقل قدر من التكرار. نجح نهجه في إنشاء هياكل قواعد البيانات التي تبسط كفاءة أجهزة الكمبيوتر. قبل عمل Codd ، كانت برامج COBOL ، ومعظم البرامج الأخرى ، قد تم ترتيب بياناتها بشكل هرمي. جعل هذا الترتيب من الضروري بدء البحث في الفئات العامة ، ثم البحث من خلال الفئات الأصغر تدريجياً. سمح النهج العلائقي للمستخدمين بتخزين البيانات بطريقة أكثر تنظيماً وفعالية باستخدام جداول ثنائية الأبعاد (أو كما أطلق عليها Codd "العلاقات").

في عام 1976 ، أثناء عمله في معهد ماساتشوستس للتكنولوجيا ، نشر بيتر تشين ورقة بحثية (نموذج العلاقة بين الكيان نحو عرض موحد للبيانات) تقديم "نمذجة الكيان / العلاقة" ، المعروف اليوم باسم "نمذجة البيانات". يمثل نهجه هياكل البيانات بيانيا. بعد ذلك بعامين ، أعلنت Oracle عن أول نظام لإدارة قواعد البيانات الارتباطية (RDBMS) مصمم للأعمال.

بدأ الأشخاص الذين يعملون مع أجهزة الكمبيوتر يدركون أن هياكل البيانات هذه كانت أكثر موثوقية من هياكل البرامج. تم دعم هذا الاستقرار من خلال إعادة تصميم منتصف النظام وعزل العمليات عن بعضها البعض (على غرار الطريقة التي أبقى المبرمجون برامجهم فيها معزولة). كان مفتاح إعادة التصميم هذا هو إضافة مخازن البيانات.

معادِلات كانت في الأصل عبارة عن نظام تخزين ذاكرة مؤقت مصمم لإزالة البيانات من ذاكرة الكمبيوتر البدائية بسرعة ، حتى لا يتعثر الكمبيوتر ، ويمكن أن يستمر في العمل على حل المشكلات. تم بعد ذلك نقل البيانات من المخزن المؤقت إلى الطابعة ، والتي تطبع "ببطء" أحدث الحسابات. إصدار اليوم من مخزن البيانات المؤقت هو منطقة مشتركة بين الأجهزة ، أو عمليات البرنامج ، التي تعمل بسرعات مختلفة ، أو مع أولويات مختلفة. يسمح المخزن المؤقت الحديث لكل عملية أو جهاز بالعمل دون تعارض. على غرار ذاكرة التخزين المؤقت ، يعمل المخزن المؤقت كـ "مساحة تخزين في منتصف الطريق" ، ولكنه يساعد أيضًا في تنسيق أنشطة منفصلة ، بدلاً من تبسيط الوصول إلى الذاكرة ببساطة.

أدرك مجتمع الأعمال بسرعة مزايا رؤى Edgar F. Codd و Peter Chen. كانت تصميمات بنية البيانات الجديدة أسرع وأكثر مرونة واستقرارًا بشكل ملحوظ من هياكل البرامج. بالإضافة إلى ذلك ، أدت رؤاهم إلى تحول ثقافي في مجتمع برمجة الكمبيوتر. يعتبر هيكل البيانات الآن أكثر أهمية من البرامج.

فُقدت الافتراضات خلال التحول النموذجي

يتطلب تطور هندسة البيانات القضاء على ثلاث افتراضات أساسية. (افتراض- شيء يعتبر مفروغًا منه ؛ تخمين ، يفتقر إلى أدلة دامغة ، ويتم التعامل معه كحقيقة.)

افتراض 1: يجب عزل كل برنامج عن البرامج الأخرى. أدت فلسفة العزلة هذه إلى ازدواج رموز البرامج وتعريفات البيانات وإدخالات البيانات. حل نهج Codd العلائقي مشكلة الازدواجية غير الضرورية. قام نموذجه بفصل مخطط قاعدة البيانات ، أو تخطيطها ، عن تخزين المعلومات المادية (أصبح المعيار لأنظمة قواعد البيانات). أشار نموذجه العلائقي إلى أن البيانات لا تحتاج إلى تخزينها في برامج منفصلة ومعزولة ، ولا يلزم تكرار إدخالات البيانات وتشفير البرامج دون داع. يمكن استخدام قاعدة بيانات علائقية واحدة لتخزين جميع البيانات. نتيجة لذلك ، يمكن أن يكون الاتساق مضمونًا (تقريبًا) وكان من السهل العثور على الأخطاء.

افتراض 2: المدخلات والمخرجات متساوية ، ويجب تصميمهما باستخدام أزواج متطابقة. تتمتع كل من أجهزة الإخراج والإدخال حاليًا بمعدلات معالجة البيانات والتي يمكن أن تختلف بشكل كبير. هذا يختلف تمامًا عن التوقع سيعمل كلاهما بنفس السرعة. إن استخدام المخازن المؤقتة التي بدأت في تحقيق المخرجات يمكن ويجب أن تعامل بشكل مختلف عن المدخلات. سلطت ابتكارات بيتر تشين الضوء على الاختلافات بين مبتكري البيانات ومستهلكي البيانات. يرغب مستهلكو البيانات عمومًا في رؤية كميات كبيرة من المعلومات من أجزاء مختلفة من قاعدة البيانات الأساسية للمقارنة ، واستخراج المعلومات الأكثر فائدة بشكل انتقائي. من ناحية أخرى ، يركز منشئو البيانات على التعامل معها ، عملية واحدة في كل مرة. تختلف أهداف منشئي البيانات (المدخلات) ومستهلكي البيانات (المخرجات) تمامًا.

افتراض 3: يجب أن ينعكس تنظيم الأعمال التجارية في برامج الكمبيوتر الخاصة بها. مع استخدام المخازن المؤقتة وقاعدة البيانات العلائقية ، فإن مفهوم "البرامج" يجب أن يقلد هيكل الشركة بشكل تدريجي. تولت قواعد البيانات الأكثر مرونة دور توفير هيكل مفيد للشركات لاتباعه ، أثناء جمع المعلومات ومعالجتها. سيعكس نموذج البيانات الحديث كلاً من تنظيم العمل والأدوات المستخدمة لتحقيق أهدافه.

SQL وهندسة البيانات

نتج عن نهج Codd العلائقي في لغة الاستعلام الهيكلية (SQL) ، أصبحت لغة الاستعلام القياسية في الثمانينيات. أصبحت قواعد البيانات العلائقية شائعة جدًا وعززت سوق قواعد البيانات ، مما تسبب بدوره في خسارة كبيرة في شعبية نماذج قواعد البيانات الهرمية.

في أوائل التسعينيات ، حاولت العديد من شركات الكمبيوتر الكبرى (لا تزال تركز على البرامج) بيع العلاقات العامة لقواعد البيانات المعقدة والمكلفة
oducts. رداً على ذلك ، بدأت الشركات الجديدة الأكثر قدرة على المنافسة في إطلاق أدوات وبرامج (Oracle Developer ، PowerBuilder) لتحسين بنية بيانات الأنظمة. في منتصف التسعينيات ، عزز استخدام الإنترنت نموًا كبيرًا في صناعة قواعد البيانات والبيع العام لأجهزة الكمبيوتر.

نتيجة لقواعد البيانات المصممة معماريًا هي تطوير  إدارة البيانات. اكتشفت المنظمات والشركات أن المعلومات نفسها ذات قيمة للشركة. خلال التسعينيات ، بدأ ظهور عناوين "مسؤول البيانات" و "مسؤول قاعدة البيانات". مسؤول البيانات مسؤول عن جودة وسلامة البيانات المستخدمة.

جعلت أنظمة إدارة قواعد البيانات العلائقية من الممكن إنشاء قاعدة بيانات تقدم مخططًا مفاهيميًا (خريطة للأنواع) ثم تقدم منظورات مختلفة لقاعدة البيانات ، مصممة لكل من منشئي البيانات ومستهلكي البيانات. بالإضافة إلى ذلك ، يمكن لكل نظام إدارة قاعدة بيانات ضبط معلمات التخزين المادية الخاصة به بشكل منفصل عن هيكل العمود والجدول.

NoSQL وهندسة البيانات

NoSQL ليس برنامج. إنه نظام إدارة قاعدة بيانات ، ويستخدم بنية بسيطة إلى حد ما. يمكن أن يكون مفيدا عندما التعامل مع البيانات الضخمة وليس هناك حاجة إلى نموذج علائقي. تتنوع أنظمة قواعد بيانات NoSQL تمامًا في الأساليب والعمليات التي تستخدمها لإدارة البيانات وتخزينها. غالبًا ما تتمتع أنظمة SQL بمرونة أكبر من حيث الوظائف مقارنة بأنظمة NoSQL ، ولكنها تفتقر إلى قابلية التوسع التي تشتهر بها أنظمة NoSQL. ولكن ، هناك الآن العديد من الحزم التجارية المتاحة التي تجمع بين نهج "أفضل ما في العالمين" ، ويتوفر المزيد في السوق طوال الوقت.

يقدم عدد من المنظمات التي تمت تغطيتها مؤخرًا في المقالات والمقابلات على DATAVERSITY® (هناك العديد من الاحتمالات الأخرى المتاحة) حلاً لهندسة البيانات لمعالجة البيانات الضخمة باستخدام أدوات مشتركة في قواعد البيانات العلائقية. رؤى Kyvos تبيع البرامج التي تعمل مع أنظمة التخزين Hadoop. تعمل تركيبة Hadoop / OLAP على تعزيز معالجة البيانات المهيكلة "و" المنظمة على مجموعة متنوعة من المقاييس ، مما يسمح بتحليل البيانات الضخمة بسهولة نسبية.

هاكوليد تبيع أيضًا حزمة برامج ، مع نموذج بيانات سهل الاستخدام يوفر أدوات "وظيفية للغاية" للتعامل مع NoSQL. يدمج البرنامج NoSQL مع بساطة الرسومات المرئية. يؤدي هذا ، جنبًا إلى جنب مع أدوات Hackolade الأخرى ، إلى تقليل وقت التطوير وزيادة جودة التطبيق. يتوافق برنامجهم حاليًا مع مخططات Couchbase و DynamoDB و MongoDB (لديهم خطط لتضمين قواعد بيانات NoSQL إضافية).

ريديسلابز يجمع بين الوصول إلى السحابة الخاصة بهم مع حزمة البرامج الخاصة بهم ، حزمة Redis ، لتوفير حل معماري آخر. نقاط القوة الثلاث التي توفرها Redis Pack والسحابة الخاصة بهم هي السرعة والمثابرة (حفظ معلوماتك) وتنوع أنواع البيانات المتوفرة لديهم. بشكل أساسي ، Redis هو NoSQL "سريع للغاية" ، مخزن البيانات ذات القيمة الرئيسية، ويعمل كقاعدة بيانات وذاكرة تخزين مؤقت وكوسيط للرسائل.

ريلتيو يقدم خدمة. لقد أنشأوا نظامًا أساسيًا لإدارة السحابة ، وقدموا الأدوات والخدمات اللازمة لإنجاز معالجة البيانات الضخمة. يزودون الباحثين ، ويدمجون البيانات الضخمة من مصادر متعددة مع Master Data Management (MDM) ، ويطورون أهدافًا موحدة. تدعم أنظمة Reltio مجموعة متنوعة من الصناعات ، بما في ذلك البيع بالتجزئة وعلوم الحياة والترفيه والرعاية الصحية والحكومة.

لقد تغيرت بنية البيانات تمامًا منذ أيامها الأولى ، ويرجع ذلك على الأرجح إلى الاتجاهات الأحدث مثل إنترنت الأشياء, الحوسبة السحابية, microservices، تحليلات متقدمة ، آلة التعلم والذكاء الاصطناعي ، وستستمر التقنيات الناشئة مثل blockchain في التغيير أكثر في المستقبل.

الصورة المستخدمة بموجب ترخيص من Shutterstock.com

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة