شعار زيفيرنت

تاركًا سبارك وراءها ، دخلت Databricks منطقة جديدة في الوقت الذي تتطلع فيه إلى طرح عام 2021

التاريخ:

تقوم Databricks ، الشركة التجارية التي تأسست حول بحيرة بيانات Apache Spark الشهيرة ، بإضراب لأعباء العمل الجديدة ووظائف إدارة بيانات المؤسسة في عام الاكتتاب العام الأولي.

أخبار التكنولوجيا هوكينج من قمة Data + AI للشركة ، تحدث إلى الرئيس التنفيذي علي قدسي السجل حول التقنيات الجديدة. قال قدسي إن جهود الشركة للجمع بين الطلبات واستعلامات SQL المألوفة لتخزين البيانات مع بنية أقل من مخطط لبحيرات البيانات ستدفع بقوة أكبر ضد البائعين المعروفين في إدارة البيانات والتحليلات وتخزين البيانات.

في 2018 ، متى إطلاق مفهوم التحليلات الموحدةقال قدسي إن Databricks كان يروج لها للعملاء الذين يبحثون في دورة حياة التعلم الآلي ، لكن هذا النهج لم يكن عدوانيًا بما يكفي.

"لقد تحركنا على أطراف أصابعنا حتى لا نزعج كبار البائعين ومستودعات البيانات. كنا نعلم أننا كنا نجلس على الكريبتونايت ، وكنا نخفيه لأننا اعتقدنا أنه سيكون مزعجًا للغاية بالنسبة للناس ، وأنه سيكون منافسًا للغاية للجميع ".

تم تأسيس Databricks في عام 2013 من قبل فريق من الأكاديميين الذين التقوا في بيركلي ، بما في ذلك عالم الكمبيوتر ماتي زاهريا ، الذي طور Spark كأطروحة دكتوراه في عام 2009 وشارك لاحقًا في إنشاء أباتشي ميسوس مدير المجموعة. لا يزال قدسي أستاذًا مساعدًا في مؤسسة جامعة كاليفورنيا.

في 2019، قدم داتابريكس بحيرة دلتا، وهو مشروع مفتوح المصدر ، تم تصميمه لمعالجة مشكلات موثوقية بحيرة البيانات وإمكانية معالجتها ، والتي تسببت في الوصف غير المثير لـ "مستنقع البيانات" لاكتساب قوة دفع.

ثم في فبراير من العام الماضي ، قدمت Databricks مصطلح "بيت البحيرة"إلى معجم التكنولوجيا المطمئن. كان هذا - كما خمنت - محاولة لوضع فكرة أنه سيجمع أفضل ما في مستودع البيانات ومنهج بحيرة البيانات.

تقدم سريعًا حتى نوفمبر ، وأطلقت Databricks SQL Analytics ، المبني على Delta Lake ، محرك بيانات التنسيق المفتوح Databricks من المفترض أن يساعد في توفير النظام والأداء لبحيرات البيانات الحالية. يستخدم أيضا محرك دلتا، "محرك تنفيذ استعلام متعدد الأشكال" ، والذي يعيد كتابة Spark ، المكتوبة بلغة Scala ، إلى C ++ للاستفادة من Vectorisation. داخل دلتا ليك ، قدمت Databricks الفوتون الملائم ، محرك التنفيذ المتوافق مع Spark المصمم لتسريع سير عمل Spark SQL.

"لقد حصلنا عليها بالفعل منذ البداية: أطلقنا عليها اسم التحليلات الموحدة. في الأساس ، قم بتوحيد جميع تحليلاتك: التحليلات المتقدمة ، وصولاً إلى التحليلات الأساسية: SQL. لكنها مخفية للغاية ولم يعرفها الناس. Lakehouse هي نوع من الشيء نفسه ولكنها الآن في وجهك: بحيرة البيانات ، بالإضافة إلى مستودعات البيانات ، مجتمعة معًا. بحيرة للذكاء الاصطناعي ؛ مخزن ذكاء الأعمال ، تحصل على أفضل ما في الذكاء الاصطناعي وذكاء الأعمال في نظام أساسي واحد ، نسخة واحدة من البيانات في منصة مفتوحة ، "قال قدسي.

في هذا المزيج ، أضافت Databricks الأسبوع الماضي Delta Live Tables بهدف تخفيف ETL ، وهو استخدام شائع لـ Spark ، من خلال "تجريد التعليمات منخفضة المستوى ، وإزالة العديد من مصادر الخطأ المحتملة" ، كما قال Databricks.

وفي الوقت نفسه ، تم تصميم Unity Catalog ، معيار الصناعة ANSI SQL ، لتقديم واجهة واحدة للوصول إلى البيانات المنظمة وغير المهيكلة ، عبر جميع بحيرات البيانات السحابية ، في محاولة لمساعدة المستخدمين في الحصول على عرض واحد لبياناتهم على Databricks Lakehouse Platform.

أطلقت Databricks مشروعًا مفتوح المصدر يسمى Delta Sharing ، والذي سيتم التبرع به لمؤسسة Linux Foundation. تدعي Databricks أنه أول بروتوكول مفتوح في العالم لمشاركة البيانات بشكل آمن عبر المؤسسات في الوقت الفعلي ، وهو مستقل تمامًا عن النظام الأساسي الذي توجد عليه البيانات. وهي مدعومة من AWS و Google Cloud و BI وشركة Tableau للتصور.

قال سانجيف موهان ، نائب رئيس شركة Gartner والمحلل ، إن Delta Live Tables كانت "جوهرة التتويج" لشركة Databricks. "إنه يجعل عملية إنشاء خطوط بيانات موثوقة عملية تعريفية - مثل SQL. أنت تحدد الوجهة ولا تقلق بشأن الكود الأساسي الذي تم إنشاؤه بواسطة النظام ".

كان كتالوج الوحدة أيضًا خطوة جيدة من Databricks ، حيث "كانت كتالوجات البيانات منتشرة منذ سنوات عديدة". قال موهان إن البائع "لديه خارطة طريق طموحة للغاية لتعزيز وظائفه".

وأضاف أن Delta Sharing كانت مثيرة للاهتمام ، لأن معظم تقنيات مشاركة البيانات الحالية تتطلب أن يكون لدى المستخدم حساب على تلك المنصة قبل أن يتمكن من المشاركة في قدراتها. قال نائب رئيس شركة Gartner: "تزيل Delta Share" Databricks "هذا المطلب.

وقال إنه بينما تهدف منتجات Microsoft و Google أيضًا إلى توحيد عالم بحيرات البيانات والمستودعات ، إلا أن هناك اختلافات في التركيز. قال: "تستهدف بعض المنتجات شخصية محلل البيانات ، لكن Databricks تهدف إلى مساعدة مهندسي البيانات على تقديم أسرع وأكثر موثوقية".

IDC: ليس من السهل إبعاد المستخدمين عن البائعين الآخرين

لكن Philip Carnelley ، نائب نائب الرئيس في أبحاث البرمجيات في IDC Europe ، قال ذلك من خلال مشاركة بيانات الأداء حول ميزات مثل التزامن، وهي منطقة تلعب فيها شركات تخزين البيانات القائمة أداءً جيدًا ، كانت Databricks تحاول إقناع السوق بأنها لاعب جاد. ولكن كان لا يزال هناك خمول لصالح البائعين الحاليين.

قال المحلل: "إذا كنت تستخدم شيئًا مثل Teradata لمدة 30 عامًا وتعلم أنه يعمل ، فمن المهم ، فلن تتخلى عنه بسهولة".

بينما قال Databricks إن المستخدمين يمكنهم إضافة سعة في السحابة ، فإن هذا يأتي دائمًا بتكلفة. "من المثير للاهتمام هنا أداء التكلفة ، وليس الأداء فقط. أعتقد أن Teradata في هذا العالم ، يمكن أن يقدم تأكيدات هناك لأن هناك الكثير من الخبرة [في التحسين] التي يمكنهم الاعتماد عليها ، "قال.

قال قدسي السجل كان هدف الشركة أن تكون "جاهزة للاكتتاب العام" هذا العام. في الفترة التي سبقت هذا اليوم الكبير ، استحوذت الشركة على جولة استثمار بقيمة مليار دولار في فبراير، مع AWS و Microsoft و Google و Andreessen Horowitz (مؤسس Netscape's Marc Andreessen's VC شركة) و Salesforce Ventures. رفعت القيمة الاسمية للشركة الوليدة إلى 28 مليار دولار.

من الواضح أن Databricks تأمل في السرد الذي يرى أنها تنشر أجنحتها من بحيرة البيانات الخاصة بها إلى تحليلات أكثر عمومية وتقنية ذكاء الأعمال هي قصة ستطير مع السوق. ®

كوينسمارت. Beste Bitcoin-Börse في أوروبا
المصدر: https://go.theregister.com/feed/www.theregister.com/2021/06/01/databricks_new_class_workloads/

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة