شعار زيفيرنت

أنشئ منصة تحليلات تفاعلية ذاتية الخدمة مُحسّنة باستخدام Amazon EMR Studio

التاريخ:

يعتمد مهندسو البيانات وعلماء البيانات على البنية التحتية لمعالجة البيانات الموزعة مثل أمازون EMR لأداء مهام معالجة البيانات والتحليلات المتقدمة على كميات كبيرة من البيانات. في معظم المؤسسات متوسطة الحجم والمؤسسات ، تمتلك فرق العمليات السحابية عمليات شراء البنى التحتية لتكنولوجيا المعلومات وتوفيرها وصيانتها ، وتختلف أهدافها وأفضل ممارساتها عن فرق هندسة البيانات وعلوم البيانات. يمثل تطبيق أفضل ممارسات البنية التحتية وضوابط الحوكمة تحديات مثيرة للاهتمام لفرق التحليلات:

  • رشاقة محدودة - يتطلب تصميم ونشر مجموعة مع تكوين الشبكات والأمان والمراقبة المطلوبة خبرة كبيرة في البنية التحتية السحابية. ينتج عن هذا اعتماد كبير على فرق العمليات لأداء مهام التجريب والتطوير البسيطة. ينتج عن هذا عادةً أسابيع أو شهور لنشر بيئة.
  • مخاطر الأمان والأداء - تتطلب أنشطة التجريب والتطوير عادةً مشاركة البيئات الحالية مع فرق أخرى ، مما يعرض مخاطر الأمان والأداء بسبب عدم عزل عبء العمل.
  • تعاون محدود - يحد التعقيد الأمني ​​لتشغيل البيئات المشتركة وعدم وجود واجهة مستخدم ويب مشتركة من قدرة فريق التحليلات على المشاركة والتعاون أثناء مهام التطوير.

لتعزيز التجريب وحل تحدي السرعة ، تحتاج المؤسسات إلى تقليل تعقيد النشر وإزالة التبعيات لفرق العمليات السحابية مع الحفاظ على حواجز الحماية لتحسين التكلفة والأمان واستخدام الموارد. في هذا المنشور ، نوجهك إلى كيفية تنفيذ منصة تحليلات الخدمة الذاتية باستخدام Amazon EMR و ستوديو أمازون إي إم آر لتحسين سرعة فرق علم البيانات وهندسة البيانات لديك دون المساومة على الأمان وقابلية التوسع والمرونة وكفاءة التكلفة لأعباء عمل البيانات الضخمة الخاصة بك.

حل نظرة عامة

توفر منصة تحليلات البيانات ذاتية الخدمة مع Amazon EMR و Amazon EMR Studio المزايا التالية:

  • من السهل بدء التشغيل والوصول إلى مهندسي البيانات وعلماء البيانات.
  • تعد بيئة التطوير المتكاملة القوية (IDE) تفاعلية ، وتسهل استكشاف البيانات ، وتوفر جميع الأدوات اللازمة لتصحيح أخطاء خطوط أنابيب البيانات وإنشائها وجدولتها.
  • إنه يتيح التعاون لفرق التحليلات مع المستوى المناسب لعزل عبء العمل لمزيد من الأمان.
  • يزيل التبعية من فرق العمليات السحابية من خلال السماح للمسؤولين داخل كل مؤسسة تحليلية بالتوفير الذاتي ، وتوسيع نطاق الموارد وإلغاء التوفير من داخل نفس واجهة المستخدم ، دون الكشف عن تعقيدات البنية التحتية لمجموعة EMR ودون المساومة على الأمن والحوكمة و التكاليف.
  • يبسط الانتقال من النماذج الأولية إلى بيئة الإنتاج.
  • يمكن لفرق العمليات السحابية إدارة تكوينات مجموعات EMR بشكل مستقل كمنتجات والتحسين المستمر للتكلفة وتحسين أمان وموثوقية وأداء مجموعات EMR الخاصة بهم.

Amazon EMR Studio عبارة عن IDE مستند إلى الويب يوفر دفاتر Jupyter المُدارة بالكامل حيث يمكن للفرق تطوير وتصور وتصحيح أخطاء التطبيقات المكتوبة بلغة R و Python و Scala و PySpark ، وأدوات مثل Spark UI لتوفير تجربة تطوير تفاعلية وتبسيط تصحيح الوظائف. يمكن لعلماء البيانات ومهندسي البيانات الوصول مباشرة إلى Amazon EMR Studio من خلال عنوان URL ممكّن لتسجيل الدخول الفردي والتعاون مع أقرانهم باستخدام أجهزة الكمبيوتر المحمولة هذه ضمن مفهوم Amazon EMR Studio Workspace ، أو رمز الإصدار مع المستودعات مثل GitHub و Bitbucket ، أو تشغيل أجهزة الكمبيوتر المحمولة ذات المعلمات كجزء من مهام سير العمل المجدولة باستخدام خدمات التنسيق. تعمل تطبيقات الكمبيوتر المحمول Amazon EMR Studio على مجموعات EMR ، لذا يمكنك الاستفادة من محرك معالجة البيانات القابل للتطوير بدرجة كبيرة باستخدام الأداء المحسن وقت تشغيل Amazon EMR لـ Apache Spark.

يوضح الرسم البياني التالي بنية النظام الأساسي لتحليلات الخدمة الذاتية مع Amazon EMR و Amazon EMR Studio.

هندسة تحليلات الخدمة الذاتية

يمكن لفرق العمليات السحابية تعيين بيئة Amazon EMR Studio واحدة لكل فريق للعزل وتوفير مستخدمي Amazon EMR Studio والمسؤولين داخل كل فريق. تتمتع فرق العمليات السحابية بالتحكم الكامل في الأذونات التي يمتلكها كل مستخدم من مستخدمي Amazon EMR Studio سياسات أذونات Amazon EMR Studio والتحكم في تكوينات مجموعة EMR التي يمكن لمسؤولي Amazon EMR Studio نشرها عبر قوالب المجموعة. يمكن لمسؤولي Amazon EMR Studio داخل كل فريق تعيين مساحات عمل لكل مطور وإرفاقها بمجموعات السجلات الطبية الإلكترونية الموجودة أو ، إذا كان مسموحًا بذلك ، مجموعات EMR ذاتية التزويد من قوالب محددة مسبقًا. كل مساحة عمل عبارة عن مثيل Jupyter بدون خادم مع نسخ ملفات دفتر الملاحظات احتياطيًا بشكل مستمر في ملف خدمة تخزين أمازون البسيطة (Amazon S3) دلو. يمكن للمستخدمين إرفاق أو فصل مجموعات EMR المتوفرة وأنت تدفع فقط مقابل سعة حساب مجموعة EMR المستخدمة.

تنظم فرق العمليات السحابية تكوينات مجموعات السجلات الطبية الإلكترونية كـ منتج في حدود كتالوج خدمة AWS. في AWS Service Catalog ، يتم تنظيم قوالب مجموعات EMR كمنتجات في ملف محفظة التي تشاركها مع مستخدمي Amazon EMR Studio. تخفي القوالب تعقيدات تكوين البنية التحتية ويمكن أن تحتوي على معلمات مخصصة للسماح بمزيد من التحسين بناءً على متطلبات عبء العمل. بعد نشر قالب مجموعة ، يمكن لمسؤولي Amazon EMR Studio إطلاق مجموعات جديدة وإرفاقها بمساحات عمل جديدة أو موجودة داخل Amazon EMR Studio دون الاعتماد على فرق العمليات السحابية. هذا يسهل على الفرق اختبار الترقيات ومشاركة القوالب المحددة مسبقًا عبر الفرق والسماح لمستخدمي التحليلات بالتركيز على تحقيق نتائج الأعمال.

يوضح الرسم البياني التالي بنية الفصل.

هندسة الفصل

يمكنك فصل تعريف تكوينات مجموعات EMR كمنتجات وتمكين الفرق المستقلة من نشر مساحات عمل بدون خادم وإرفاق مجموعات EMR ذاتية التوفير داخل Amazon EMR Studio في دقائق. يتيح ذلك للمؤسسات إنشاء بيئة مرنة وذاتية الخدمة لمعالجة البيانات وعلوم البيانات على نطاق واسع مع الحفاظ على المستوى المناسب من الأمان والحوكمة.

بصفتك مهندس عمليات سحابية ، تتمثل المهمة الرئيسية في التأكد من أن القوالب الخاصة بك تتبع تكوينات الكتلة المناسبة التي تكون آمنة ، وتعمل بتكلفة مثالية ، وسهلة الاستخدام. تناقش الأقسام التالية التوصيات الرئيسية للأمان وتحسين التكلفة وسهولة الاستخدام عند تحديد قوالب مجموعة EMR للاستخدام داخل Amazon EMR Studio. للحصول على أفضل ممارسات Amazon EMR الإضافية ، يرجى الرجوع إلى دليل أفضل ممارسات السجلات الطبية الإلكترونية.

حماية

يعد الأمان مهمة بالغة الأهمية لأي عبء عمل يتعلق بعلوم البيانات وإعداد البيانات. تأكد من اتباع هذه التوصيات:

  • العزلة القائمة على الفريق - الحفاظ على عزل عبء العمل من خلال توفير بيئة Amazon EMR Studio لكل فريق ومساحة عمل لكل مستخدم.
  • التحقّق من المُستخدم - استعمال مركز هوية AWS IAM (خليفة للدخول الموحد لـ AWS) أو الوصول الموحد مع إدارة الهوية والوصول AWS (IAM) لمركزية إدارة المستخدم.
  • ترخيص - تعيين أذونات دقيقة داخل بيئة Amazon EMR Studio الخاصة بك. قم بتعيين مستخدمين محدودين (1-2) مع دور مسؤول Amazon EMR Studio للسماح بتوفير مساحة العمل والمجموعة. سيكون لمعظم مهندسي البيانات وعلماء البيانات دور مطور. لمزيد من المعلومات حول كيفية تحديد الأذونات ، يرجى الرجوع إلى تكوين أذونات مستخدم EMR Studio.
  • التشفير - عند تحديد قوالب تكوين المجموعة الخاصة بك ، تأكد من فرض التشفير أثناء النقل وأثناء السكون. على سبيل المثال ، يجب أن تستخدم حركة المرور بين بحيرات البيانات أحدث إصدار من TLS ، ويتم تشفير البيانات باستخدام خدمة إدارة مفتاح AWS (AWS KMS) في وضع الراحة لـ Amazon S3 ، متجر أمازون مطاط بلوك (Amazon EBS) و خدمة قاعدة بيانات الأمازون (أمازون آر دي إس).

التكلفة

لتحسين تكلفة مجموعة EMR قيد التشغيل ، ضع في اعتبارك خيارات تحسين التكلفة التالية في قوالب المجموعة الخاصة بك:

  • استخدم مثيلات EC2 الموضعية - تتيح لك المثيلات الفورية الاستفادة من الميزات غير المستخدمة الأمازون الحوسبة المرنة السحابية (Amazon EC2) في سحابة AWS وتقدم خصمًا يصل إلى 90٪ مقارنة بالأسعار عند الطلب. يُعد Spot هو الأنسب لأحمال العمل التي يمكن مقاطعتها أو الحصول على اتفاقيات مستوى الخدمة المرنة ، مثل أعباء عمل الاختبار والتطوير.
  • استخدام أساطيل المثيل - استعمال أساطيل سبيل المثال عند استخدام EC2 Spot لزيادة احتمالية توافر الموقع. أسطول المثيل هو مجموعة من مثيلات EC2 التي تستضيف نوع عقدة معينة (أساسي أو أساسي أو مهمة) في مجموعة EMR. نظرًا لأن أساطيل المثيل يمكن أن تتكون من مزيج من أنواع المثيلات ، سواء عند الطلب أو الفوري ، فإن هذا سيزيد من احتمالية توفر مثيل Spot عند الوصول إلى السعة المستهدفة. ضع في اعتبارك 10 أنواع مثيلات على الأقل في جميع مناطق توافر الخدمات.
  • استخدم وضع Spark العنقودية و تأكد من تشغيل التطبيقات الرئيسية على العقد عند الطلب - التطبيق الرئيسي (AM) هو إطلاق الحاوية الرئيسية ومراقبة منفذي التطبيق. لذلك ، من المهم التأكد من أن AM مرن قدر الإمكان. في بيئة Amazon EMR Studio ، يمكنك توقع قيام المستخدمين بتشغيل تطبيقات متعددة في نفس الوقت. في وضع الكتلة، يمكن تشغيل تطبيقات Spark الخاصة بك كمجموعات مستقلة من العمليات المنتشرة عبر عقد العمل الخاصة بك داخل AMs. بشكل افتراضي ، يمكن تشغيل AM على أي من العقد العاملة. قم بتعديل السلوك لضمان تشغيل AMs فقط في العقد عند الطلب. للحصول على تفاصيل حول هذا الإعداد ، انظر استخدام بقعة.
  • استخدم مقياس Amazon EMR المُدار - يتجنب هذا الإفراط في توفير المجموعات ويقيس مجموعاتك تلقائيًا لأعلى أو لأسفل بناءً على استخدام الموارد. من خلال التدرج المُدار من Amazon EMR ، تدير AWS نشاط القياس التلقائي من خلال التقييم المستمر لمقاييس المجموعة واتخاذ قرارات توسيع محسّنة.
  • تنفيذ سياسة الإنهاء التلقائي - هذا يتجنب الكتل الخاملة أو الحاجة إلى مراقبة وإيقاف مجموعات EMR غير المستخدمة يدويًا. عندما تقوم بتعيين ملف سياسة الإنهاء التلقائي، يمكنك تحديد مقدار وقت الخمول الذي يجب أن يتم بعده إيقاف تشغيل الكتلة تلقائيًا.
  • توفير الرؤية ومراقبة تكاليف الاستخدام - يمكنك توفير إمكانية رؤية مجموعات السجلات الطبية الإلكترونية (EMR) لمسؤولي Amazon EMR Studio وفرق العمليات السحابية من خلال التكوين علامات تخصيص التكلفة المعرفة من قبل المستخدم. تساعد هذه العلامات في إنشاء تقارير مفصلة عن التكلفة والاستخدام في AWS Cost Explorer لمجموعات EMR عبر أبعاد متعددة.

سهولة الاستخدام

باستخدام Amazon EMR Studio ، يمكن للمسؤولين داخل فرق علوم البيانات وهندسة البيانات التزويد الذاتي لمجموعات EMR من قوالب تم إنشاؤها مسبقًا باستخدام تكوين سحابة AWS. يمكن تحديد معلمات القوالب لتحسين تكوين الكتلة وفقًا لمتطلبات عبء العمل لكل فريق. لسهولة الاستخدام ولتجنب التبعيات لفرق العمليات السحابية ، يجب أن تتجنب المعلمات طلب تفاصيل غير ضرورية أو الكشف عن تعقيدات البنية التحتية. فيما يلي بعض النصائح لاستخلاص قيم الإدخال:

  • حافظ على عدد الأسئلة إلى الحد الأدنى (أقل من 5).
  • إخفاء الشبكة وتكوينات الأمان. كن عنيدًا عند تحديد مجموعتك وفقًا لمتطلبات الأمان والشبكة التالية أفضل ممارسات Amazon EMR.
  • تجنب قيم الإدخال التي تتطلب معرفة بالمصطلحات الخاصة بسحابة AWS ، مثل أنواع مثيلات EC2 ، ومثيلات Spot مقابل مثيلات عند الطلب ، وما إلى ذلك.
  • معلمات الإدخال المجردة مع مراعاة المعلومات المتاحة لفرق هندسة البيانات وعلوم البيانات. ركز على المعلمات التي ستساعد في تحسين حجم وتكاليف مجموعات السجلات الطبية الإلكترونية الخاصة بك.

لقطة الشاشة التالية هي مثال على قيم الإدخال التي يمكنك طلبها من فريق علوم البيانات وكيفية حلها عبر ميزات قالب CloudFormation.

بيئة تطوير متكاملة لاستوديو EMR

معلمات الإدخال كما يلي:

  • التزامن المستخدم - إن معرفة عدد المستخدمين المتوقع تشغيلهم للوظائف في وقت واحد سيساعد في تحديد عدد المنفذين المطلوب توفيرهم
  • الأمثل للتكلفة أو الموثوقية - استخدم مثيلات Spot لتحسين التكلفة ؛ لأحمال العمل الحساسة لاتفاقية مستوى الخدمة (SLA) ، استخدم العقد عند الطلب فقط
  • متطلبات ذاكرة عبء العمل (صغير ، متوسط ​​، كبير) - تحديد نسبة الذاكرة لكل منفذ شرارة في مجموعة السجلات الطبية الإلكترونية الخاصة بك

تصف الأقسام التالية كيفية حل تكوينات مجموعة EMR من معلمات الإدخال هذه والميزات التي يجب استخدامها في قوالب CloudFormation الخاصة بك.

تزامن المستخدم: كم عدد المستخدمين المتزامنين الذي تحتاجه؟

ستساعد معرفة التزامن المتوقع للمستخدم في تحديد سعة العقدة المستهدفة لمجموعتك أو السعة الدنيا / القصوى عند استخدام ميزة التحجيم التلقائي Amazon EMR. ضع في اعتبارك مقدار السعة (مراكز وحدة المعالجة المركزية والذاكرة) التي يحتاجها كل عالم بيانات لتشغيل متوسط ​​عبء العمل.

على سبيل المثال ، لنفترض أنك تريد توفير 10 منفذين لكل عالم بيانات في الفريق. إذا تم تعيين التزامن المتوقع على 7 ، فأنت بحاجة إلى توفير 70 منفذًا. نوع المثيل r5.2xlarge به 8 مراكز و 64 جيجا بايت من ذاكرة الوصول العشوائي. باستخدام التكوين الافتراضي ، يتم تعيين عدد النواة (spark.executor.cores) على 1 وتعيين الذاكرة (spark.executor.memory) على 6 جيجا بايت. سيتم حجز نواة واحدة لتشغيل تطبيق Spark ، وبالتالي ترك سبعة منفذين لكل عقدة. ستحتاج إلى ما مجموعه 10 عقد r5.2xlarge لتلبية الطلب. يمكن حل السعة المستهدفة ديناميكيًا إلى 10 من إدخال التزامن المستخدم ، وتأكد أوزان السعة في أسطولك من تلبية نفس السعة إذا تم توفير أحجام مثيلات مختلفة لتلبية السعة المتوقعة.

باستخدام CloudFormation تحول يسمح لك بتحديد السعة المستهدفة بناءً على قيمة إدخال رقمية. التحويل يمرر النص البرمجي للقالب الخاص بك إلى نموذج مخصص AWS لامدا حتى تتمكن من استبدال أي عنصر نائب في قالب CloudFormation بقيم تم حلها من معلمات الإدخال.

يستدعي البرنامج النصي CloudFormation التالي تحويل emr-size-macro الذي يحل محل ملف custom::Target نائب في TargetSpotCapacity كائن بناءً على قيمة إدخال UserConcurrency:

Parameters:
... UserConcurrency: Description: "How many users you expect to run jobs simultaneously" Type: "Number" Default: "5"
...
Resources EMRClusterTaskSpot: 'Fn::Transform': Name: emr-size-macro Parameters: FleetType: task InputSize: !Ref TeamSize Type: AWS::EMR::InstanceFleetConfig Condition: UseSpot Properties: ClusterId: !Ref EMRCluster Name: cfnTask InstanceFleetType: TASK TargetOnDemandCapacity: 0 TargetSpotCapacity: "custom::Target" LaunchSpecifications: OnDemandSpecification: AllocationStrategy: lowest-price SpotSpecification: AllocationStrategy: capacity-optimized TimeoutAction: SWITCH_TO_ON_DEMAND TimeoutDurationMinutes: 5 InstanceTypeConfigs: !FindInMap [ InstanceTypes, !Ref MemoryProfile, taskfleet]

مُحسَّن من حيث التكلفة أو الموثوقية: كيف يمكنك تحسين مجموعة السجلات الطبية الإلكترونية (EMR) الخاصة بك؟

تحدد هذه المعلمة ما إذا كان يجب أن تستخدم المجموعة مثيلات Spot لعقد المهام لتحسين التكلفة أو توفير العقد عند الطلب فقط لأحمال العمل الحساسة لاتفاقية مستوى الخدمة التي تحتاج إلى تحسين من أجل الموثوقية.

يمكنك استخدام ميزة شروط CloudFormation في القالب الخاص بك لحل تكوينات أسطول المثيل التي تريدها. يوضح الكود التالي كيف تبدو ميزة الشروط في نموذج نموذج EMR:

Parameters: ... Optimization: Description: "Choose reliability if your jobs need to meet specific SLAs" Type: "String" Default: "cost" AllowedValues: [ 'cost', 'reliability']
...
Conditions: UseSpot: !Equals - !Ref Optimization - cost UseOnDemand: !Equals - !Ref Optimization - reliability
Resources:
...
EMRClusterTaskSpot: Type: AWS::EMR::InstanceFleetConfig Condition: UseSpot Properties: ClusterId: !Ref EMRCluster Name: cfnTask InstanceFleetType: TASK TargetOnDemandCapacity: 0 TargetSpotCapacity: 6 LaunchSpecifications: OnDemandSpecification: AllocationStrategy: lowest-price SpotSpecification: AllocationStrategy: capacity-optimized TimeoutAction: SWITCH_TO_ON_DEMAND TimeoutDurationMinutes: 5 InstanceTypeConfigs: - InstanceType: !FindInMap [ InstanceTypes, !Ref ClusterSize, taskfleet] WeightedCapacity: 1 EMRClusterTaskOnDemand: Type: AWS::EMR::InstanceFleetConfig Condition: UseOnDemand Properties: ClusterId: !Ref EMRCluster Name: cfnTask InstanceFleetType: TASK TargetOnDemandCapacity: 6 TargetSpotCapacity: 0 ...

متطلبات ذاكرة عبء العمل: ما حجم الكتلة التي تحتاجها؟

تساعد هذه المعلمة في تحديد مقدار الذاكرة ووحدات المعالجة المركزية المراد تخصيصها لكل منفذ Spark. يجب تعيين نسبة الذاكرة المحددة إلى وحدة المعالجة المركزية المخصصة لكل منفذ بشكل مناسب لتجنب أخطاء الذاكرة. يمكنك تعيين معلمة الإدخال (صغير ، متوسط ​​، كبير) لأنواع مثيل محددة لتحديد نسبة CPU / الذاكرة. يحتوي Amazon EMR على تكوينات افتراضية (spark.executor.cores, spark.executor.memory) استنادًا إلى كل نوع مثيل. على سبيل المثال ، يمكن أن يتم حل طلب مجموعة صغيرة الحجم لمثيلات الأغراض العامة مثل m5 (افتراضي: مركزان و 2 جيجابايت لكل منفذ) ، بينما يمكن أن يتحول سير العمل المتوسط ​​إلى نوع R (افتراضي: 4 نواة و 1 جيجابايت لكل منفذ). يمكنك أيضًا ضبط ذاكرة Amazon EMR الافتراضية والتخصيص الأساسي لوحدة المعالجة المركزية لكل نوع مثيل باتباع أفضل الممارسات الموضحة في شرارة مقطع من أدلة أفضل ممارسات السجلات الطبية الإلكترونية.

استخدم قسم تعيينات CloudFormation لحل تكوين الكتلة في القالب الخاص بك:

Parameters:
… MemoryProfile: Description: "What is the memory profile you expect in your workload." Type: "String" Default: "small" AllowedValues: ['small', 'medium', 'large']
…
Mappings: InstanceTypes: small: master: "m5.xlarge" core: "m5.xlarge" taskfleet: - InstanceType: m5.2xlarge WeightedCapacity: 1 - InstanceType: m5.4xlarge WeightedCapacity: 2 - InstanceType: m5.8xlarge WeightedCapacity: 3 ... medium: master: "m5.xlarge" core: "r5.2xlarge" taskfleet: - InstanceType: r5.2xlarge WeightedCapacity: 1 - InstanceType: r5.4xlarge WeightedCapacity: 2 - InstanceType: r5.8xlarge WeightedCapacity: 3
...
Resources:
... EMRClusterTaskSpot: Type: AWS::EMR::InstanceFleetConfig Properties: ClusterId: !Ref EMRCluster InstanceFleetType: TASK InstanceTypeConfigs: !FindInMap [InstanceTypes, !Ref MemoryProfile, taskfleet] ...

وفي الختام

في هذا المنشور ، أوضحنا كيفية إنشاء منصة تحليلات ذاتية الخدمة مع Amazon EMR و Amazon EMR Studio للاستفادة الكاملة من المرونة التي توفرها سحابة AWS من خلال تقليل أوقات النشر بشكل كبير دون المساس بالحوكمة. قمنا أيضًا بإرشادك عبر أفضل الممارسات في الأمان والتكلفة وسهولة الاستخدام عند تحديد بيئة Amazon EMR Studio الخاصة بك حتى تتمكن فرق هندسة البيانات وعلوم البيانات من تسريع دورات التطوير الخاصة بهم عن طريق إزالة التبعيات من فرق العمليات السحابية عند توفير منصات معالجة البيانات الخاصة بهم.

إذا كانت هذه هي المرة الأولى التي تستكشف فيها Amazon EMR Studio ، فإننا نوصي بمراجعة ملف ورش عمل Amazon EMR ويشير إلى قم بإنشاء استوديو EMR. استمر في الرجوع إلى دليل أفضل ممارسات Amazon EMR عند تحديد القوالب الخاصة بك وتحقق من ملف نموذج إعادة شراء Amazon EMR Studio لمراجع قالب الكتلة EMR.


حول المؤلف

بابلو ريدوندو هو مهندس حلول رئيسي في Amazon Web Services. إنه متحمس للبيانات ويتمتع بخبرة تزيد عن 16 عامًا في مجال التكنولوجيا المالية والرعاية الصحية ، وهو عضو في مجتمع المجال التقني لتحليلات AWS (TFC). يقود Pablo برنامج AWS Gain Insights لمساعدة عملاء AWS على تحقيق رؤى أفضل وقيمة أعمال ملموسة من مبادرات تحليل البيانات الخاصة بهم.

ماليني تشاترجي هو مهندس حلول أول في AWS. تقدم إرشادات لعملاء AWS بشأن أعباء العمل الخاصة بهم عبر مجموعة متنوعة من تقنيات AWS مع مجموعة واسعة من الخبرة في البيانات والتحليلات. إنها شغوفة جدًا بالرقص شبه الكلاسيكي وتؤدي في المناسبات المجتمعية. تحب السفر وقضاء الوقت مع عائلتها.

أفيجيت جوسوامي هو مهندس حلول رئيسي في AWS ، متخصص في البيانات والتحليلات. يدعم عملاء AWS الإستراتيجيين في بناء حلول بحيرة بيانات عالية الأداء وآمنة وقابلة للتطوير على AWS باستخدام خدمات AWS المدارة وحلول مفتوحة المصدر. بعيدًا عن عمله ، يحب Avijit السفر والمشي لمسافات طويلة في مسارات منطقة خليج سان فرانسيسكو ومشاهدة الألعاب الرياضية والاستماع إلى الموسيقى.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة