شعار زيفيرنت

كيف خفضت شركة Ontraport تكلفة معالجة البيانات بنسبة 80٪ باستخدام AWS Glue | خدمات أمازون ويب

التاريخ:

تمت كتابة هذا المنشور بالتعاون مع Elijah Ball من Ontraport.

يقوم العملاء بتنفيذ أعباء عمل البيانات والتحليلات في سحابة AWS لتحسين التكلفة. عند تنفيذ أعباء عمل معالجة البيانات في AWS ، لديك خيار استخدام تقنيات مثل أمازون EMR أو تقنيات بدون خادم مثل غراء AWS. يقلل كلا الخيارين من أنشطة الرفع الثقيلة غير المتمايزة مثل إدارة الخوادم وإجراء الترقيات ونشر تصحيحات الأمان ويسمح لك بالتركيز على ما هو مهم: تلبية أهداف العمل الأساسية. يمكن أن يلعب الاختلاف بين كلا النهجين دورًا مهمًا في تمكين مؤسستك من أن تكون أكثر إنتاجية وابتكارًا ، مع توفير الأموال والموارد أيضًا.

تركز خدمات مثل Amazon EMR على توفير المرونة لك لدعم أعباء عمل معالجة البيانات على نطاق واسع باستخدام أطر العمل التي اعتدت عليها. على سبيل المثال ، مع Amazon EMR ، يمكنك الاختيار من بين العديد من أطر معالجة البيانات مفتوحة المصدر مثل أباتشي سبارك, اباتشي خليةو مقطع موسيقي سريع، وضبط أحمال العمل عن طريق تخصيص أشياء مثل تشغيل أنواع مثيل المجموعة الأمازون الحوسبة المرنة السحابية (Amazon EC2) أو استخدم البيئات المعبأة في حاويات قيد التشغيل خدمة أمازون مطاطا Kubernetes (أمازون EKS). هذا الخيار هو الأنسب عند ترحيل أحمال العمل من بيئات البيانات الضخمة مثل Apache Hadoop أو Spark ، أو عند استخدامه من قبل فرق على دراية بالمصدر المفتوح أطر العمل المدعومة على Amazon EMR.

خدمات بدون خادم مثل غراء AWS تقليل الحاجة إلى التفكير في الخوادم والتركيز على تقديم إنتاجية إضافية وأدوات DataOps لتسريع تطوير خط أنابيب البيانات. AWS Glue هي خدمة تكامل بيانات بدون خادم تساعد مستخدمي التحليلات على اكتشاف البيانات من مصادر متعددة وإعدادها ونقلها ودمجها عبر نهج منخفض الكود أو بدون رمز. يكون هذا الخيار مناسبًا بشكل أفضل عندما تكون المؤسسات مقيدة بالموارد وتحتاج إلى إنشاء أعباء عمل معالجة البيانات على نطاق واسع مع خبرة محدودة ، مما يسمح لها بتسريع التطوير وتقليل التكلفة الإجمالية للملكية (TCO).

في هذا المنشور ، نوضح كيف قام عميل AWS Ontraport بتقييم استخدام AWS Glue و Amazon EMR لتقليل التكلفة الإجمالية للملكية ، وكيف خفضوا تكلفة التخزين بنسبة 92٪ وتكلفة المعالجة بنسبة 80٪ مع مطور واحد فقط يعمل بدوام كامل.

عبء العمل والحل في Ontraport

Ontraport هي خدمة إدارة علاقات العملاء والأتمتة التي تدعم التسويق والمبيعات والعمليات للشركات في مكان واحد - وتمكين الشركات من النمو بشكل أسرع وتقديم قيمة أكبر لعملائها.

تعد معالجة السجلات وتحليلها أمرًا بالغ الأهمية بالنسبة لشركة Ontraport. يتيح لهم تقديم خدمات ورؤى أفضل للعملاء مثل تحسين حملات البريد الإلكتروني. على سبيل المثال ، تسجل سجلات البريد الإلكتروني وحدها 3-4 أحداث لكل رسالة من 15-20 مليون رسالة ترسلها Ontraport نيابة عن عملائها كل يوم. يسمح تحليل معاملات البريد الإلكتروني مع مزودي الخدمات مثل Google و Microsoft لفريق التسليم في Ontraport بتحسين معدلات الفتح لحملات العملاء الذين لديهم قوائم جهات اتصال كبيرة.

بعض المساهمين الكبار في السجلات هم خادم الويب وأحداث CDN ، وسجلات معاملات البريد الإلكتروني ، وسجلات الأحداث المخصصة داخل تطبيقات الملكية الخاصة بـ Ontraport. فيما يلي نموذج تفصيلي لمساهماتهم اليومية في السجل:

سجلات طلب Cloudflare 75 مليون سجل
سجلات طلب CloudFront 2 مليون سجل
سجلات Nginx / Apache 20 مليون سجل
سجلات البريد الإلكتروني 50 مليون سجل
سجلات الخادم العامة 50 مليون سجل
سجلات تطبيق Ontraport 6 مليون سجل

يستخدم حل Ontraport أمازون كينسيس و أمازون كينسيس داتا فايرهاوس لاستيعاب بيانات السجل وكتابة السجلات الحديثة في ملف خدمة Amazon OpenSearch قاعدة البيانات ، حيث يمكن للمحللين والمسؤولين تحليل بيانات آخر 3 أشهر. تسجل سجلات التطبيق المخصصة التفاعلات مع Ontraport CRM بحيث يمكن تدقيق حسابات العملاء أو استردادها بواسطة فريق دعم العملاء. في الأصل ، تم الاحتفاظ بجميع السجلات منذ عام 2018. يتم الاحتفاظ بمستويات متعددة حسب العمر:

يوضح الرسم التخطيطي التالي بنية خط أنابيب معالجة السجل وبيانات التحليلات.

تقييم الحل الأمثل

من أجل تحسين تخزين وتحليل سجلاتهم التاريخية في Amazon S3 ، نفذت شركة Ontraport عملية ETL لتحويل ملفات TSV و JSON وضغطها إلى ملفات باركيه مع التقسيم بالساعة. ساعد الضغط والتحويل شركة Ontraport على تقليل تكاليف التخزين S3 بنسبة 92٪.

في المرحلة الأولى ، نفذت شركة Ontraport عبء عمل ETL مع Amazon EMR. نظرًا لحجم بياناتهم (مئات المليارات من الصفوف) ومطور واحد فقط ، تطلبت محاولة Ontraport الأولى في تطبيق Apache Spark مجموعة EMR ذات 1 عقدة مع r16xlarge الأساسية وعقد المهام. سمح التكوين للمطور بمعالجة بيانات لمدة عام واحد وتقليل مشكلات نفاد الذاكرة مع إصدار تقريبي من تطبيق Spark ETL.

للمساعدة في تحسين عبء العمل ، تواصلت Ontraport مع AWS للحصول على توصيات التحسين. كان هناك عدد كبير من الخيارات لتحسين عبء العمل داخل Amazon EMR ، مثل الحجم الصحيح الأمازون الحوسبة المرنة السحابية (Amazon EC2) نوع المثيل استنادًا إلى ملف تعريف حمل العمل وتعديل تكوين ذاكرة Spark YARN وإعادة كتابة أجزاء من كود Spark. بالنظر إلى قيود الموارد (مطور واحد فقط يعمل بدوام كامل) ، أوصى فريق AWS باستكشاف منطق مماثل مع AWS Glue Studio.

تتضمن بعض الفوائد الأولية لاستخدام AWS Glue لحمل العمل هذا ما يلي:

  • لدى AWS Glue مفهوم برامج الزحف التي توفر نهجًا بدون رمز لفهرسة مصادر البيانات وتحديد المخطط من مصادر بيانات متعددة ، في هذه الحالة Amazon S3.
  • توفر AWS Glue إمكانات معالجة بيانات مضمنة مع طرق مجردة أعلى Spark تقلل من الحمل المطلوب لتطوير كود معالجة بيانات فعال. على سبيل المثال ، يدعم AWS Glue ملف إطار ديناميكي فئة المقابلة ل شرارة DataFrame يوفر مرونة إضافية عند العمل مع مجموعات البيانات شبه المهيكلة ويمكن تحويله بسرعة إلى Spark DataFrame. يمكن إنشاء DynamicFrames مباشرة من الجداول التي تم الزحف إليها أو مباشرة من الملفات في Amazon S3. انظر رمز المثال التالي:
    dyf = glueContext.create_dynamic_frame.from_options( connection_type = 's3',
    connection_options = {'paths': [s3://<bucket/paths>]},
    format = 'json')

  • إنه يقلل من الحاجة إلى Ontraport إلى أنواع المثيلات ذات الحجم المناسب وتكوينات القياس التلقائي.
  • يسمح استخدام جلسات AWS Glue Studio التفاعلية لشركة Ontraport بالتكرار السريع عند تغيير الكود عند الحاجة عند اكتشاف تطور مخطط السجل التاريخي.

كان على Ontraport معالجة 100 تيرابايت من بيانات السجل. بلغت تكلفة معالجة كل تيرابايت بالتكوين الأولي حوالي 500 دولار. انخفضت هذه التكلفة إلى ما يقرب من 100 دولار لكل تيرابايت بعد استخدام AWS Glue. باستخدام AWS Glue و AWS Glue Studio ، تم تخفيض تكلفة معالجة شركة Ontraport للوظائف بنسبة 80٪.

الغوص بعمق في عبء عمل AWS Glue

كان أول تطبيق AWS Glue من Ontraport عبارة عن عبء عمل PySpark الذي استوعب البيانات من ملفات TSV و JSON في Amazon S3 ، وأجرى تحويلات أساسية في حقول الطابع الزمني ، وقام بتحويل أنواع البيانات لحقلين. أخيرًا ، يكتب بيانات الإخراج في دلو منظم S3 كملفات باركيه مضغوطة بحجم 1 غيغابايت تقريبًا ومقسمة على فترات زمنية مدتها ساعة واحدة لتحسين الاستعلامات مع أثينا.

من خلال مهمة AWS Glue التي تم تكوينها مع 10 عمال من تكوين نوع G.2x ، تمكنت شركة Ontraport من معالجة ما يقرب من 500 مليون سجل في أقل من 60 دقيقة. عند معالجة 10 مليارات سجل ، تمكنوا من زيادة تكوين الوظيفة إلى 100 عامل كحد أقصى مع تمكين التحجيم التلقائي لإكمال المهمة في غضون ساعة واحدة.

ما هي الخطوة التالية؟

تمكنت شركة Ontraport من معالجة السجلات في وقت مبكر من عام 2018. ويقوم الفريق بتحديث رمز المعالجة للسماح بسيناريوهات تطور المخطط (مثل الحقول الجديدة) وتحديد معلمات بعض المكونات لأتمتة معالجة الدُفعات بالكامل. إنهم يتطلعون أيضًا إلى ضبط عدد عمال AWS Glue المقدمين للحصول على أداء السعر الأمثل.

وفي الختام

في هذا المنشور ، أوضحنا لك كيف استخدمت Ontraport AWS Glue للمساعدة في تقليل نفقات التطوير وتبسيط جهود التطوير لأعباء عمل ETL الخاصة بهم مع مطور واحد فقط يعمل بدوام كامل. على الرغم من أن خدمات مثل Amazon EMR توفر قدرًا كبيرًا من المرونة والتحسين ، إلا أن سهولة الاستخدام والتبسيط في AWS Glue غالبًا ما توفر مسارًا أسرع لتحسين التكلفة والابتكار للشركات الصغيرة والمتوسطة. لمزيد من المعلومات حول AWS Glue ، تحقق من بدء استخدام AWS Glue.


حول المؤلف

إيليا بول كان مسؤولاً في Sys في Ontraport لمدة 12 عامًا. يعمل حاليًا على نقل أعباء العمل الخاصة بالإنتاج في شركة Ontraport إلى AWS وتطوير استراتيجيات تحليل البيانات الخاصة بـ Ontraport.

بابلو ريدوندو هو مهندس حلول رئيسي في Amazon Web Services. إنه متحمس للبيانات ويتمتع بخبرة تزيد عن 16 عامًا في مجال التكنولوجيا المالية والرعاية الصحية ، وهو عضو في مجتمع المجال التقني لتحليلات AWS (TFC). يقود Pablo برنامج AWS Gain Insights لمساعدة عملاء AWS على تحقيق رؤى أفضل وقيمة أعمال ملموسة من مبادرات تحليل البيانات الخاصة بهم.

فيكرام هونمورجي مدير حلول العملاء في Amazon Web Services. مع أكثر من 15 عامًا من الخبرة في توصيل البرامج ، فإن Vikram متحمس لمساعدة العملاء وتسريع رحلتهم السحابية ، وتقديم عمليات ترحيل خالية من الاحتكاك ، وضمان حصول عملائنا على المزايا التجارية الكاملة والمستدامة للترحيل إلى AWS Cloud.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة