شعار زيفيرنت

اجعل البيانات متاحة للتحليل في ثوانٍ باستخدام خطوط أنابيب البيانات منخفضة الشفرة من Upsolver و Amazon Redshift Streaming Ingestion و Amazon Redshift Serverless

التاريخ:

الأمازون الأحمر هو مستودع البيانات السحابية الأكثر استخدامًا. يجعل Amazon Redshift إجراء تحليلات على كميات هائلة من البيانات أمرًا سهلاً ومنخفض التكلفة. إطلاق Amazon Redshift تدفق الابتلاع For الأمازون كينسيس دفق البيانات، والذي يمكّنك من تحميل البيانات إلى Amazon Redshift بزمن انتقال منخفض ودون الحاجة إلى تخزين البيانات خدمة تخزين أمازون البسيطة (أمازون S3). تتيح لك هذه الإمكانية الجديدة إنشاء تقارير ولوحات معلومات وإجراء تحليلات باستخدام بيانات حديثة وحديثة ، دون الحاجة إلى إدارة التعليمات البرمجية المخصصة التي تقوم بتحميل البيانات الجديدة بشكل دوري.

Upsolver هي أحد شركاء التكنولوجيا المتقدمة في AWS والتي تمكنك من استيعاب البيانات من مجموعة واسعة من المصادر وتحويلها وتحميل النتائج إلى الهدف الذي تختاره ، مثل Kinesis Data Streams و Amazon Redshift. يحدد محللو البيانات والمهندسون وعلماء البيانات منطق التحول الخاص بهم باستخدام SQL ، وتقوم Upsolver بأتمتة نشر وجدولة وصيانة خط أنابيب البيانات. عمليات خطوط الأنابيب مبسطة!

هناك طرق متعددة لدفق البيانات إلى Amazon Redshift وفي هذا المنشور سنغطي خيارين يمكن أن تساعدك Upsolver بهما: أولاً ، نوضح لك كيفية تكوين Upsolver لدفق الأحداث إلى Kinesis Data Streams التي تستهلكها Amazon Redshift باستخدام البث ابتلاع. ثانيًا ، نوضح كيفية كتابة بيانات الحدث في بحيرة البيانات الخاصة بك واستهلاكها باستخدامها أمازون Redshift Serverless حتى تتمكن من الانتقال من الأحداث الأولية إلى مجموعات البيانات الجاهزة للتحليلات في دقائق.

المتطلبات الأساسية المسبقة

قبل أن تبدأ ، تحتاج إلى تثبيت Upsolver. يمكنك قم بالتسجيل في Upsolver ونشره مباشرة في VPC الخاص بك للوصول بأمان إلى Kinesis Data Streams و Amazon Redshift.

تكوين Upsolver لدفق الأحداث إلى Kinesis Data Streams

يمثل الرسم التخطيطي التالي بنية كتابة الأحداث إلى Kinesis Data Streams و Amazon Redshift.

لتنفيذ هذا الحل ، عليك إكمال الخطوات عالية المستوى التالية:

  1. قم بتكوين مصدر بيانات Kinesis.
  2. قم بتنفيذ مسار البيانات.
  3. أنشئ مخططًا خارجيًا لـ Amazon Redshift وعرضًا ملموسًا.

قم بتكوين مصدر بيانات Kinesis

لغرض هذا المنشور ، تقوم بإنشاء مصدر بيانات Amazon S3 يحتوي على عينة من بيانات البيع بالتجزئة بتنسيق JSON. يستوعب Upsolver هذه البيانات كتدفق ؛ عند وصول كائنات جديدة ، يتم استيعابها تلقائيًا وتدفقها إلى الوجهة.

  1. في وحدة التحكم Upsolver ، اختر مصادر البيانات في شريط التنقل الجانبي.
  2. اختار جديد.
  3. اختر Amazon S3 كمصدر بياناتك.
  4. في حالة دلو، يمكنك استخدام الحاوية مع مجموعة البيانات العامة أو حاوية تحتوي على بياناتك الخاصة.
  5. اختار اتبع الدورة لإنشاء مصدر البيانات.
  6. إنشاء دفق البيانات في Kinesis Data Streams ، كما هو موضح في لقطة الشاشة التالية.

هذا هو تدفق الإخراج الذي تستخدمه Upsolver لكتابة الأحداث التي تستهلكها Amazon Redshift.

بعد ذلك ، تقوم بإنشاء اتصال Kinesis في Upsolver. يتيح لك إنشاء اتصال تحديد طريقة المصادقة التي يستخدمها Upsolver — على سبيل المثال ، ملف إدارة الهوية والوصول AWS (IAM) مفتاح الوصول والمفتاح السري أو دور IAM.

  1. في وحدة التحكم Upsolver ، اختر المزيد في شريط التنقل الجانبي.
  2. اختار التواصل.
  3. اختار اتصال جديد.
  4. اختار أمازون كينسيس.
  5. في حالة بلد المنشأ، أدخل منطقة AWS الخاصة بك.
  6. في حالة الاسم، أدخل اسمًا لاتصالك (لهذا المنشور ، قمنا بتسميته upsolver_redshift).
  7. اختار إنشاء.

قبل أن تتمكن من استهلاك الأحداث في Amazon Redshift ، يجب عليك كتابتها في تدفق بيانات Kinesis الناتج.

  1. في وحدة التحكم Upsolver ، انتقل إلى النواتج واختر كينسيس.
  2. في حالة مصادر البيانات، اختر مصدر بيانات Kinesis الذي أنشأته في الخطوة السابقة.
  3. اعتمادًا على بنية بيانات الحدث ، لديك خياران:
    1. إذا كانت بيانات الحدث التي تكتبها إلى الإخراج لا تحتوي على أي حقول متداخلة ، فحدد مجدول. تقوم Upsolver تلقائيًا بتسوية البيانات المتداخلة نيابة عنك.
    2. لكتابة بياناتك بتنسيق متداخل ، حدد الهرمية.
  4. لأننا نعمل مع Kinesis Data Streams ، حدد الهرمية.

قم بتنفيذ مسار البيانات

الآن وقد تم توصيل الدفق من المصدر إلى الإخراج ، يجب عليك تحديد حقول الحدث المصدر الذي ترغب في المرور خلاله. يمكنك أيضًا اختيار تطبيق تحويلات على بياناتك - على سبيل المثال ، إضافة طوابع زمنية صحيحة ، وإخفاء القيم الحساسة ، وإضافة الحقول المحسوبة. لمزيد من المعلومات ، يرجى الرجوع إلى دليل سريع: تحويل بيانات SQL.

بعد إضافة الأعمدة التي تريد تضمينها في الإخراج وتطبيق عمليات التحويل ، اختر يجري لبدء مسار البيانات. عند وصول أحداث جديدة إلى المصدر ، يقوم Upsolver تلقائيًا بتحويلها وإعادة توجيه النتائج إلى تدفق الإخراج. ليست هناك حاجة لجدولة أو تنسيق خط الأنابيب ؛ إنه يعمل دائمًا.

أنشئ مخططًا خارجيًا لـ Amazon Redshift وعرضًا ملموسًا

أولاً ، قم بإنشاء دور IAM مع الأذونات المناسبة (لمزيد من المعلومات ، راجع ابتلاع البث). يمكنك الآن استخدام محرر استعلام Amazon Redshift أو واجهة سطر أوامر AWS (AWS CLI) أو API لتشغيل عبارات SQL التالية.

  1. قم بإنشاء مخطط خارجي مدعوم بواسطة Kinesis Data Streams. يتطلب الأمر التالي منك تضمين دور IAM الذي أنشأته سابقًا:
    CREATE EXTERNAL SCHEMA upsolver
    FROM KINESIS
    IAM_ROLE 'arn:aws:iam::123456789012:role/redshiftadmin';

  2. أنشئ عرضًا ملموسًا يسمح لك بتشغيل عبارة SELECT مقابل بيانات الحدث التي ينتجها Upsolver:
    CREATE MATERIALIZED VIEW mv_orders AS
    SELECT ApproximateArrivalTimestamp, SequenceNumber, json_extract_path_text(from_varbyte(Data, 'utf-8'), 'orderId') as order_id, json_extract_path_text(from_varbyte(Data, 'utf-8'), 'shipmentStatus') as shipping_status
    FROM upsolver.upsolver_redshift;

  3. قم بتوجيه Amazon Redshift لتجسيد النتائج في جدول يسمى mv_orders:
    REFRESH MATERIALIZED VIEW mv_orders;

  4. يمكنك الآن تشغيل استعلامات مقابل بياناتك المتدفقة ، مثل ما يلي:
    SELECT * FROM mv_orders;

استخدم Upsolver لكتابة البيانات إلى بحيرة البيانات والاستعلام عنها باستخدام Amazon Redshift Serverless

يمثل الرسم التخطيطي التالي بنية كتابة الأحداث في بحيرة البيانات الخاصة بك والاستعلام عن البيانات باستخدام Amazon Redshift.

لتنفيذ هذا الحل ، عليك إكمال الخطوات عالية المستوى التالية:

  1. قم بتكوين مصدر بيانات Kinesis.
  2. اتصل بكتالوج بيانات AWS Glue وقم بتحديث البيانات الوصفية.
  3. استعلم عن بحيرة البيانات.

قم بتكوين مصدر بيانات Kinesis

لقد أكملنا هذه الخطوة مسبقًا في المنشور ، لذلك لا تحتاج إلى القيام بأي شيء مختلف.

اتصل بكتالوج بيانات AWS Glue وقم بتحديث البيانات الوصفية

لتحديث البيانات الوصفية ، أكمل الخطوات التالية:

  1. في وحدة التحكم Upsolver ، اختر المزيد في شريط التنقل الجانبي.
  2. اختار التواصل.
  3. اختيار غراء AWS اتصال كتالوج البيانات.
  4. في حالة بلد المنشأ، أدخل منطقتك.
  5. في حالة الاسم، أدخل اسمًا (لهذا المنشور ، نسميه redshift serverless).
  6. اختار إنشاء.
  7. قم بإنشاء ناتج Redshift Spectrum ، باتباع نفس الخطوات السابقة في هذا المنشور.
  8. أختار مجدول أثناء كتابة المخرجات في بيانات منسقة بجدول إلى Amazon Redshift.
  9. قم بتعيين حقول مصدر البيانات إلى إخراج طيف الانزياح الأحمر.
  10. اختار يجري.
  11. على وحدة تحكم Amazon Redshift ، إنشاء نقطة نهاية Amazon Redshift Serverless.
  12. تأكد من ربط دور Upsolver الخاص بك بـ Amazon Redshift Serverless.
  13. عند إطلاق نقطة النهاية ، افتح محرر استعلام Amazon Redshift الجديد لإنشاء مخطط خارجي يشير إلى AWS Glue Data Catalog (انظر لقطة الشاشة التالية).

يمكّنك هذا من تشغيل الاستعلامات مقابل البيانات المخزنة في بحيرة البيانات الخاصة بك.

استعلم عن بحيرة البيانات

الآن بعد أن تتم كتابة بيانات Upsolver الخاصة بك وصيانتها تلقائيًا في بحيرة البيانات الخاصة بك ، يمكنك الاستعلام عنها باستخدام الأداة المفضلة لديك ومحرر استعلام Amazon Redshift ، كما هو موضح في لقطة الشاشة التالية.

وفي الختام

في هذا المنشور ، تعلمت كيفية استخدام Upsolver لدفق بيانات الأحداث إلى Amazon Redshift باستخدام البث المتدفق لـ Kinesis Data Streams. لقد تعلمت أيضًا كيف يمكنك استخدام Upsolver لكتابة التدفق إلى بحيرة البيانات الخاصة بك والاستعلام عنه باستخدام Amazon Redshift Serverless.

تعمل Upsolver على تسهيل إنشاء خطوط بيانات باستخدام SQL وتقوم بأتمتة تعقيد إدارة خطوط الأنابيب وقياسها وصيانتها. تمكنك Upsolver و Amazon Redshift من تحليل البيانات بسرعة وسهولة في الوقت الفعلي.

إذا كانت لديك أي أسئلة ، أو ترغب في مناقشة هذا التكامل أو استكشاف حالات استخدام أخرى ، فابدأ المحادثة في مجتمع Upsolver الخاص بنا قناة سلاك.


حول المؤلف

روي حسون هو رئيس المنتج في Upsolver. إنه يعمل مع العملاء على مستوى العالم لتبسيط كيفية إنشاء وإدارة ونشر خطوط أنابيب البيانات لتقديم بيانات عالية الجودة كمنتج. في السابق ، كان روي محترفًا
مدير مجاري الهواء لـ AWS Glue و AWS Lake Formation.

مي لونج هو مدير منتجات في Upsolver. إنها في مهمة لجعل البيانات قابلة للوصول وقابلة للاستخدام ويمكن التحكم فيها في السحابة. في السابق ، لعبت Mei دورًا أساسيًا في العمل مع الفرق التي ساهمت في مشاريع Apache Hadoop و Spark و Zeppelin و Kafka و Kubernetes.

مانيش شارما هو مهندس قاعدة بيانات أول في AWS ولديه أكثر من عشر سنوات من الخبرة في تصميم وتنفيذ مستودعات البيانات واسعة النطاق وحلول التحليلات. يتعاون مع العديد من شركاء Amazon Redshift والعملاء لتحقيق تكامل أفضل.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة