Zephyrnet লোগো

কিভাবে Amazon তার উচ্চ-ভলিউম আর্থিক পুনর্মিলন প্রক্রিয়াকে অপ্টিমাইজ করেছে Amazon EMR এর সাথে উচ্চ মাপযোগ্যতা এবং কর্মক্ষমতার জন্য | আমাজন ওয়েব সার্ভিসেস

তারিখ:

আর্থিক বিবৃতিগুলির সম্পূর্ণতা এবং নির্ভুলতা নিশ্চিত করার জন্য অ্যাকাউন্ট পুনর্মিলন একটি গুরুত্বপূর্ণ পদক্ষেপ। বিশেষত, কোম্পানিগুলিকে পুনর্মিলন করতে হবে ব্যালেন্স শীট গুরুত্বপূর্ণ বা বস্তুগত ভুল বিবরণ থাকতে পারে এমন অ্যাকাউন্ট। হিসাবরক্ষকরা অ্যাকাউন্টের সাধারণ খাতায় প্রতিটি অ্যাকাউন্টের মাধ্যমে যান এবং তালিকাভুক্ত ব্যালেন্স সম্পূর্ণ এবং সঠিক তা যাচাই করেন। যখন অসঙ্গতি পাওয়া যায়, হিসাবরক্ষক তদন্ত করে এবং যথাযথ সংশোধনমূলক ব্যবস্থা নেয়।

Amazon-এর FinTech সংস্থার অংশ হিসাবে, আমরা একটি সফ্টওয়্যার প্ল্যাটফর্ম অফার করি যা Amazon-এর অভ্যন্তরীণ অ্যাকাউন্টিং দলগুলিকে অ্যাকাউন্ট পুনর্মিলন পরিচালনা করার ক্ষমতা দেয়৷ পুনর্মিলন প্রক্রিয়াটিকে অপ্টিমাইজ করার জন্য, এই ব্যবহারকারীদের চাহিদা অনুযায়ী স্কেল করার ক্ষমতা সহ উচ্চ কার্যক্ষমতার রূপান্তর প্রয়োজন, সেইসাথে কিছু MB থেকে কম থেকে 100 GB পর্যন্ত পরিবর্তনশীল ফাইলের আকার প্রক্রিয়া করার ক্ষমতা। একটি একক মেশিনে ডেটা ফিট করা বা যুক্তিসঙ্গত সময় ফ্রেমে একটি একক প্রোগ্রামের মাধ্যমে এটি প্রক্রিয়া করা সবসময় সম্ভব নয়। এই গণনাটি ব্যবহারিক পরিষেবা প্রদানের জন্য যথেষ্ট দ্রুত সম্পন্ন করতে হবে যেখানে প্রোগ্রামিং লজিক এবং অন্তর্নিহিত বিবরণ (ডেটা বিতরণ, ত্রুটি সহনশীলতা এবং সময়সূচী) আলাদা করা যেতে পারে।

আমরা বিতরণ করা ডেটা প্রসেসিং সমাধানগুলি ব্যবহার করে ডেটাসেটের উপাদানগুলির গ্রুপ জুড়ে একাধিক মেশিন বা একই ফাংশনের থ্রেডগুলিতে এই একযোগে গণনাগুলি অর্জন করতে পারি। এটি আমাদের AWS পরিষেবাগুলি দ্বারা চালিত আমাদের পুনর্গঠন পরিষেবাকে পুনরুদ্ধার করতে উত্সাহিত করেছে, সহ৷ আমাজন ইএমআর এবং আপা স্পার্ক বিতরণ প্রক্রিয়াকরণ কাঠামো, যা ব্যবহার করে পাইস্পার্ক. এই পরিষেবাটি ব্যবহারকারীদের 100 মিনিটেরও কম সময়ে 100 মিলিয়ন পর্যন্ত লেনদেন সমন্বিত 30 GB এর বেশি ফাইল প্রক্রিয়া করতে সক্ষম করে। পুনর্মিলন পরিষেবা ডেটা প্রক্রিয়াকরণের জন্য একটি পাওয়ার হাউস হয়ে উঠেছে, এবং এখন ব্যবহারকারীরা নির্বিঘ্নে বিভিন্ন ধরনের অপারেশন করতে পারে, যেমন পিভট, JOIN (একটি এক্সেল VLOOKUP অপারেশনের মত), পাটীগণিত অপারেশন, এবং অধিক, বিশাল ডেটাসেটের সমন্বয়ের জন্য একটি বহুমুখী এবং দক্ষ সমাধান প্রদান করে। এই বর্ধনটি বিতরণকৃত ডেটা প্রক্রিয়াকরণ সমাধান গ্রহণের মাধ্যমে অর্জিত মাপযোগ্যতা এবং গতির একটি প্রমাণ।

এই পোস্টে, আমরা ব্যাখ্যা করেছি কিভাবে আমরা একটি অত্যন্ত উপলব্ধ এবং মাপযোগ্য সিস্টেম তৈরি করতে Amazon EMR সংহত করেছি যা আমাদেরকে একটি উচ্চ-ভলিউম আর্থিক পুনর্মিলন প্রক্রিয়া চালাতে সক্ষম করেছে।

মাইগ্রেশনের আগে স্থাপত্য

নিচের চিত্রটি আমাদের পূর্ববর্তী স্থাপত্যের চিত্র তুলে ধরে।

আমাদের উত্তরাধিকার সেবা দিয়ে নির্মিত হয়েছে অ্যামাজন ইলাস্টিক কনটেইনার পরিষেবা (Amazon ECS) চালু আছে AWS Fargate. আমরা পাইথন ব্যবহার করে ক্রমানুসারে ডেটা প্রক্রিয়া করি। যাইহোক, সমান্তরাল প্রক্রিয়াকরণের ক্ষমতার অভাবের কারণে, বড় ডেটাসেটগুলিকে সমর্থন করার জন্য আমাদের প্রায়শই ক্লাস্টারের আকার উল্লম্বভাবে বাড়াতে হয়েছিল। প্রেক্ষাপটের জন্য, 5টি অপারেশন সহ 50 GB ডেটা প্রক্রিয়া করতে প্রায় 3 ঘন্টা সময় নেয়। এই পরিষেবাটি অনুভূমিকভাবে পাঁচটি ইসিএস দৃষ্টান্তে স্কেল করার জন্য কনফিগার করা হয়েছিল যেগুলি থেকে বার্তাগুলি পোল করা হয়েছিল অ্যামাজন সরল সারি পরিষেবা (Amazon SQS), যা রূপান্তরের অনুরোধগুলিকে ফিড করে৷ অনুভূমিক স্কেলিং করার জন্য প্রতিটি উদাহরণ 4 vCPU এবং 30 GB মেমরির সাথে কনফিগার করা হয়েছিল। যাইহোক, আমরা পারফরম্যান্সের উপর এর ক্ষমতা প্রসারিত করতে পারিনি কারণ প্রক্রিয়াটি ক্রমানুসারে ঘটেছিল, এর থেকে অনেকগুলি ডেটা বাছাই করা হয়েছিল আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) প্রক্রিয়াকরণের জন্য। উদাহরণ স্বরূপ, একটি VLOOKUP অপারেশন যেখানে দুটি ফাইল যুক্ত করতে হবে আউটপুট পাওয়ার জন্য উভয় ফাইলকে মেমরি খণ্ডে পড়তে হবে। এটি ব্যবহারকারীদের জন্য একটি বাধা হয়ে দাঁড়িয়েছে কারণ তাদের ডেটাসেটগুলি প্রক্রিয়া করার জন্য তাদের দীর্ঘ সময়ের জন্য অপেক্ষা করতে হয়েছিল।

আমাদের পুনঃস্থাপত্য এবং আধুনিকীকরণের অংশ হিসাবে, আমরা নিম্নলিখিতগুলি অর্জন করতে চেয়েছিলাম:

  • উচ্চ প্রাপ্যতা - ডেটা প্রসেসিং ক্লাস্টারগুলি অত্যন্ত উপলব্ধ হওয়া উচিত, তিন 9s উপলব্ধতা প্রদান করে (99.9%)
  • থ্রুপুট - পরিষেবাটি প্রতিদিন 1,500 রান পরিচালনা করা উচিত
  • অদৃশ্যতা - এটি 100 মিনিটের মধ্যে 30 জিবি ডেটা প্রক্রিয়া করতে সক্ষম হওয়া উচিত
  • ভিন্নতা - ক্লাস্টারটি কয়েক এমবি থেকে কয়েকশ জিবি পর্যন্ত ফাইল সহ বিভিন্ন ধরণের কাজের চাপকে সমর্থন করতে সক্ষম হওয়া উচিত।
  • কোয়েরি কনকারেন্সি - বাস্তবায়নের জন্য ন্যূনতম 10 ডিগ্রী সহযোগে সমর্থন করার ক্ষমতা প্রয়োজন
  • কাজের নির্ভরযোগ্যতা এবং ডেটা সামঞ্জস্য - সার্ভিস লেভেল এগ্রিমেন্ট (এসএলএ) ভঙ্গ এড়াতে চাকরিগুলিকে নির্ভরযোগ্যভাবে এবং ধারাবাহিকভাবে চলতে হবে
  • খরচ কার্যকর এবং মাপযোগ্য - এটি অবশ্যই কাজের চাপের উপর ভিত্তি করে মাপযোগ্য হতে হবে, এটিকে সাশ্রয়ী করে তোলে
  • সুরক্ষা এবং সম্মতি - ডেটার সংবেদনশীলতার পরিপ্রেক্ষিতে, এটি অবশ্যই সূক্ষ্ম-দানাযুক্ত অ্যাক্সেস নিয়ন্ত্রণ এবং যথাযথ নিরাপত্তা বাস্তবায়ন সমর্থন করবে
  • পর্যবেক্ষণ - সমাধানটি অবশ্যই ক্লাস্টার এবং চাকরির এন্ড-টু-এন্ড মনিটরিং অফার করবে

কেন আমাজন EMR

Amazon EMR হল ওপেন সোর্স ফ্রেমওয়ার্ক ব্যবহার করে পেটাবাইট-স্কেল ডেটা প্রসেসিং, ইন্টারেক্টিভ অ্যানালিটিক্স এবং মেশিন লার্নিং (ML) এর জন্য শিল্প-নেতৃস্থানীয় ক্লাউড বিগ ডেটা সমাধান আপা স্পার্ক, অ্যাপাচি হিভ, এবং প্রবঁচনাময়. এই ফ্রেমওয়ার্ক এবং সম্পর্কিত ওপেন-সোর্স প্রকল্পগুলির সাথে, আপনি বিশ্লেষণের উদ্দেশ্যে এবং BI ওয়ার্কলোডের জন্য ডেটা প্রক্রিয়া করতে পারেন। অ্যামাজন ইএমআর আপনাকে অন্যান্য AWS ডেটা স্টোর এবং ডেটাবেসের মধ্যে এবং বাইরে প্রচুর পরিমাণে ডেটা রূপান্তর এবং স্থানান্তর করতে দেয়, যেমন Amazon S3 এবং আমাজন ডায়নামোডিবি.

Amazon EMR-এর একটি উল্লেখযোগ্য সুবিধা হল PySpark-এর সাথে সমান্তরাল প্রক্রিয়াকরণের কার্যকরী ব্যবহার, যা ঐতিহ্যগত ক্রমিক পাইথন কোডের তুলনায় উল্লেখযোগ্য উন্নতি চিহ্নিত করে। এই উদ্ভাবনী পদ্ধতি অ্যাপাচি স্পার্ক ক্লাস্টারগুলির স্থাপনা এবং স্কেলিংকে স্ট্রীমলাইন করে, যা বড় ডেটাসেটে দক্ষ সমান্তরালকরণের অনুমতি দেয়। বিতরণকৃত কম্পিউটিং অবকাঠামো শুধুমাত্র কর্মক্ষমতা বাড়ায় না, অভূতপূর্ব গতিতে বিপুল পরিমাণ ডেটা প্রক্রিয়াকরণও সক্ষম করে। লাইব্রেরি দিয়ে সজ্জিত, PySpark এক্সেল-এর মতো অপারেশন চালু করে ডেটা ফ্রেম, এবং DataFrames-এর উচ্চ-স্তরের বিমূর্ততা জটিল ডেটা ম্যানিপুলেশনকে সহজ করে, কোড জটিলতা হ্রাস করে। স্বয়ংক্রিয় ক্লাস্টার প্রভিশনিং, ডাইনামিক রিসোর্স অ্যালোকেশন, এবং অন্যান্য AWS পরিষেবাগুলির সাথে একীকরণের সাথে মিলিত, Amazon EMR ব্যাচ প্রসেসিং থেকে ML পর্যন্ত বিভিন্ন কাজের চাপের জন্য উপযুক্ত একটি বহুমুখী সমাধান হিসাবে প্রমাণিত হয়। PySpark এবং Amazon EMR-এর অন্তর্নিহিত দোষ সহনশীলতা দৃঢ়তাকে উৎসাহিত করে, এমনকি নোড ব্যর্থতার ক্ষেত্রেও, এটিকে AWS-এ সমান্তরাল ডেটা প্রক্রিয়াকরণের জন্য একটি পরিমাপযোগ্য, খরচ-কার্যকর এবং উচ্চ-কর্মক্ষমতা পছন্দ করে।

আমাজন ইএমআর তার ক্ষমতাগুলিকে মৌলিক বিষয়গুলির বাইরে প্রসারিত করে, বিভিন্ন চাহিদা মেটাতে বিভিন্ন স্থাপনার বিকল্পগুলি অফার করে। এটা কিনা EC2 এ আমাজন ইএমআর, EKS-এ Amazon EMR, আমাজন ইএমআর সার্ভারহীন, বা AWS আউটপোস্টগুলিতে অ্যামাজন ইএমআর, আপনি নির্দিষ্ট প্রয়োজনীয়তা আপনার পদ্ধতির দর্জি করতে পারেন. যারা স্পার্ক চাকরির জন্য সার্ভারহীন পরিবেশ খুঁজছেন, তাদের জন্য ইন্টিগ্রেটিং এডাব্লুএস আঠালো এছাড়াও একটি কার্যকর বিকল্প। স্পার্ক সহ বিভিন্ন ওপেন সোর্স ফ্রেমওয়ার্ককে সমর্থন করার পাশাপাশি, অ্যামাজন ইএমআর ডিপ্লয়মেন্ট মোড বেছে নেওয়ার ক্ষেত্রে নমনীয়তা প্রদান করে, অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড (Amazon EC2) উদাহরণের ধরন, স্কেলিং মেকানিজম এবং অসংখ্য খরচ-সঞ্চয় অপ্টিমাইজেশান কৌশল।

অ্যামাজন ইএমআর ক্লাউডে একটি গতিশীল শক্তি হিসাবে দাঁড়িয়েছে, যা শক্তিশালী বড় ডেটা সমাধানের সন্ধানকারী সংস্থাগুলির জন্য অতুলনীয় ক্ষমতা সরবরাহ করে। এর নিরবচ্ছিন্ন একীকরণ, শক্তিশালী বৈশিষ্ট্য এবং অভিযোজনযোগ্যতা এটিকে AWS-এ ডেটা বিশ্লেষণ এবং ML-এর জটিলতাগুলি নেভিগেট করার জন্য একটি অপরিহার্য হাতিয়ার করে তোলে।

নতুন নকশা করা স্থাপত্য

নিচের চিত্রটি আমাদের নতুনভাবে ডিজাইন করা আর্কিটেকচারকে তুলে ধরে।

সমাধানটি একটি API চুক্তির অধীনে কাজ করে, যেখানে ক্লায়েন্টরা ট্রান্সফর্মেশন কনফিগারেশন জমা দিতে পারে, প্রক্রিয়াকরণের জন্য S3 ডেটাসেট অবস্থানের পাশাপাশি অপারেশনের সেটকে সংজ্ঞায়িত করে। অনুরোধটি Amazon SQS এর মাধ্যমে সারিবদ্ধ করা হয়, তারপর একটি Lambda ফাংশনের মাধ্যমে Amazon EMR-এ নির্দেশিত হয়। এই প্রক্রিয়াটি একটি ডেডিকেটেড ইএমআর ক্লাস্টারে স্পার্ক ফ্রেমওয়ার্ক বাস্তবায়নের জন্য একটি অ্যামাজন EMR ধাপ তৈরির সূচনা করে। যদিও Amazon EMR একটি দীর্ঘ-চলমান ক্লাস্টারের জীবদ্দশায় সীমাহীন সংখ্যক পদক্ষেপের ব্যবস্থা করে, শুধুমাত্র 256টি ধাপ একই সাথে চলমান বা মুলতুবি থাকতে পারে। সর্বোত্তম সমান্তরালকরণের জন্য, ধাপের সমান্তরাল 10 এ সেট করা হয়েছে, যাতে 10টি ধাপ একসাথে চলতে পারে। অনুরোধ ব্যর্থ হলে, Amazon SQS মৃত অক্ষর সারি (DLQ) ইভেন্টটি ধরে রেখেছে। স্পার্ক অনুরোধটি প্রক্রিয়া করে, এক্সেল-এর মতো অপারেশনগুলিকে একটি দক্ষ ক্যোয়ারী প্ল্যানের জন্য PySpark কোডে অনুবাদ করে। রেসিলিয়েন্ট ডেটাফ্রেম ইনপুট, আউটপুট এবং ইন্টারমিডিয়েট ডেটা ইন-মেমরি সঞ্চয় করে, প্রক্রিয়াকরণের গতি অপ্টিমাইজ করে, ডিস্কের I/O খরচ কমায়, কাজের চাপের কর্মক্ষমতা বাড়ায়, এবং নির্দিষ্ট Amazon S3 অবস্থানে চূড়ান্ত আউটপুট সরবরাহ করে।

আমরা আমাদের SLA কে দুটি মাত্রায় সংজ্ঞায়িত করি: লেটেন্সি এবং থ্রুপুট। একটি নির্ধারক ডেটাসেট আকারের বিপরীতে একটি কাজ সম্পাদন করতে কত সময় লাগে এবং ডেটাসেটে সম্পাদিত ক্রিয়াকলাপগুলির সংখ্যা হিসাবে লেটেন্সি সংজ্ঞায়িত করা হয়৷ থ্রুপুট একটি কাজের লেটেন্সি SLA লঙ্ঘন না করে সর্বোচ্চ সংখ্যক একযোগে কাজ হিসাবে সংজ্ঞায়িত করা হয়। পরিষেবার সামগ্রিক পরিমাপযোগ্যতা SLA ইলাস্টিক কম্পিউট সংস্থানগুলির অনুভূমিক স্কেলিং এবং পৃথক সার্ভারগুলির উল্লম্ব স্কেলিং এর ভারসাম্যের উপর নির্ভর করে।

যেহেতু আমাদের ন্যূনতম লেটেন্সি এবং উচ্চ কর্মক্ষমতা সহ প্রতিদিন 1,500টি প্রক্রিয়া চালাতে হয়েছিল, আমরা প্রক্রিয়াকরণ পরিবর্তনশীল ফাইলের আকারগুলিকে সমর্থন করার জন্য পরিচালিত স্কেলিংয়ের সাথে EC2 স্থাপনার মোডে Amazon EMR সংহত করতে বেছে নিই।

EMR ক্লাস্টার কনফিগারেশন অনেক ভিন্ন নির্বাচন প্রদান করে:

  • EMR নোডের ধরন - প্রাথমিক, মূল বা টাস্ক নোড
  • উদাহরণ ক্রয় বিকল্প - অন-ডিমান্ড ইনস্ট্যান্স, রিজার্ভড ইনস্ট্যান্স বা স্পট ইনস্ট্যান্স
  • কনফিগারেশন অপশন – ইএমআর ইনস্ট্যান্স ফ্লিট বা ইউনিফর্ম ইনস্ট্যান্স গ্রুপ
  • স্কেলিং বিকল্প - অটো স্কেলিং বা অ্যামাজন ইএমআর পরিচালিত স্কেলিং

আমাদের পরিবর্তনশীল কাজের চাপের উপর ভিত্তি করে, আমরা একটি EMR ইনস্ট্যান্স ফ্লিট কনফিগার করেছি (সেরা অনুশীলনের জন্য, দেখুন বিশ্বাসযোগ্যতা) আমরা কোর এবং টাস্ক নোড স্কেল করার জন্য অ্যামাজন ইএমআর পরিচালিত স্কেলিং ব্যবহার করার সিদ্ধান্ত নিয়েছি (স্কেলিংয়ের জন্য, দেখুন নোড বরাদ্দের পরিস্থিতি) অবশেষে, আমরা মেমরি-অপ্টিমাইজ করা বেছে নিয়েছি AWS Graviton দৃষ্টান্ত, যা পর্যন্ত প্রদান করে স্পার্ক ওয়ার্কলোডের জন্য 30% কম খরচ এবং 15% পর্যন্ত উন্নত কর্মক্ষমতা.

নিম্নলিখিত কোডটি আমাদের ক্লাস্টার কনফিগারেশনের একটি স্ন্যাপশট প্রদান করে:

Concurrent steps:10

EMR Managed Scaling:
minimumCapacityUnits: 64
maximumCapacityUnits: 512
maximumOnDemandCapacityUnits: 512
maximumCoreCapacityUnits: 512

Master Instance Fleet:
r6g.xlarge
- 4 vCore, 30.5 GiB memory, EBS only storage
- EBS Storage:250 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 1 units
r6g.2xlarge
- 8 vCore, 61 GiB memory, EBS only storage
- EBS Storage:250 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 1 units

Core Instance Fleet:
r6g.2xlarge
- 8 vCore, 61 GiB memory, EBS only storage
- EBS Storage:100 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 8 units
r6g.4xlarge
- 16 vCore, 122 GiB memory, EBS only storage
- EBS Storage:100 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 16 units

Task Instances:
r6g.2xlarge
- 8 vCore, 61 GiB memory, EBS only storage
- EBS Storage:100 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 8 units
r6g.4xlarge
- 16 vCore, 122 GiB memory, EBS only storage
- EBS Storage:100 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 16 units

সম্পাদন

আমাজন ইএমআর-এ আমাদের স্থানান্তরিত হওয়ার সাথে সাথে, আমরা একটি সিস্টেমের কার্যক্ষমতা অর্জন করতে সক্ষম হয়েছি যা বিভিন্ন ডেটাসেট পরিচালনা করতে সক্ষম, যার মধ্যে 273 বি থেকে কম 88.5 জিবি পর্যন্ত p99 491 সেকেন্ডের (প্রায় 8 মিনিট)।

নিম্নলিখিত চিত্রটি প্রক্রিয়াকৃত ফাইলের আকারের বিভিন্ন চিত্র তুলে ধরে।

নিচের চিত্রটি আমাদের লেটেন্সি দেখায়।

অনুক্রমিক প্রক্রিয়াকরণের সাথে তুলনা করার জন্য, আমরা 53 মিলিয়ন রেকর্ড সম্বলিত দুটি ডেটাসেট নিয়েছি এবং 49টি এক্সেল-এর মতো অন্যান্য অপারেশন সহ একে অপরের বিরুদ্ধে একটি VLOOKUP অপারেশন চালিয়েছি। এটি নতুন পরিষেবাতে প্রক্রিয়া করতে 26 মিনিট সময় নেয়, উত্তরাধিকার পরিষেবাতে প্রক্রিয়া করতে 5 দিনের তুলনায়। পারফরম্যান্সের দিক থেকে এই উন্নতিটি আগের আর্কিটেকচারের তুলনায় প্রায় 300 গুণ বেশি।

বিবেচ্য বিষয়

এই সমাধান বিবেচনা করার সময় নিম্নলিখিত মনে রাখবেন:

  • ডান মাপের ক্লাস্টার – যদিও Amazon EMR রিসাইজ করা যায়, তবে ক্লাস্টারগুলির সঠিক মাপ করা গুরুত্বপূর্ণ। ডান সাইজিং একটি ধীর ক্লাস্টারকে প্রশমিত করে, যদি ছোট আকারের হয় বা উচ্চতর খরচ হয়, যদি ক্লাস্টারটি বড় হয়। এই সমস্যাগুলি অনুমান করতে, আপনি কাজের চাপের জন্য প্রয়োজনীয় নোডগুলির সংখ্যা এবং প্রকার গণনা করতে পারেন।
  • সমান্তরাল পদক্ষেপ - সমান্তরালভাবে চলমান পদক্ষেপগুলি আপনাকে আরও উন্নত কাজের চাপ চালাতে, ক্লাস্টার সংস্থান ব্যবহার বাড়াতে এবং আপনার কাজের চাপ সম্পূর্ণ করতে যে সময় নেয় তা কমাতে দেয়। একবারে চালানোর জন্য অনুমোদিত ধাপগুলির সংখ্যা কনফিগারযোগ্য এবং একটি ক্লাস্টার চালু হলে এবং ক্লাস্টার শুরু হওয়ার পরে যে কোনও সময় সেট করা যেতে পারে। যখন একাধিক কাজ একটি একক ভাগ করা ক্লাস্টারে চলছে তখন আপনাকে প্রতি কাজের CPU/মেমরি ব্যবহার বিবেচনা এবং অপ্টিমাইজ করতে হবে।
  • চাকরি ভিত্তিক ক্ষণস্থায়ী EMR ক্লাস্টার - যদি প্রযোজ্য হয়, এটি একটি কাজ-ভিত্তিক ক্ষণস্থায়ী EMR ক্লাস্টার ব্যবহার করার সুপারিশ করা হয়, যা উচ্চতর বিচ্ছিন্নতা প্রদান করে, যাচাই করে যে প্রতিটি কাজ তার ডেডিকেটেড পরিবেশের মধ্যে কাজ করে। এই পদ্ধতিটি সম্পদের ব্যবহারকে অপ্টিমাইজ করে, কাজের মধ্যে হস্তক্ষেপ রোধ করতে সাহায্য করে এবং সামগ্রিক কর্মক্ষমতা এবং নির্ভরযোগ্যতা বাড়ায়। ক্ষণস্থায়ী প্রকৃতি দক্ষ স্কেলিং সক্ষম করে, বিভিন্ন ডেটা প্রক্রিয়াকরণের প্রয়োজনের জন্য একটি শক্তিশালী এবং বিচ্ছিন্ন সমাধান প্রদান করে।
  • EMR সার্ভারহীন - আপনি যদি ক্লাস্টারগুলির পরিচালনা এবং অপারেশন পরিচালনা না করতে পছন্দ করেন তবে ইএমআর সার্ভারলেস একটি আদর্শ পছন্দ। এটি আপনাকে EMR সার্ভারলেস এর মধ্যে উপলব্ধ ওপেন সোর্স ফ্রেমওয়ার্ক ব্যবহার করে অনায়াসে অ্যাপ্লিকেশন চালানোর অনুমতি দেয়, একটি সহজবোধ্য এবং ঝামেলা-মুক্ত অভিজ্ঞতা প্রদান করে।
  • মর্দানী স্ত্রীলোক EKS-এ EMR – EKS-এ Amazon EMR স্বতন্ত্র সুবিধাগুলি অফার করে, যেমন দ্রুত স্টার্টআপ সময় এবং উন্নত স্কেলেবিলিটি গণনা ক্ষমতা চ্যালেঞ্জগুলি সমাধান করে — যা বিশেষত গ্র্যাভিটন এবং স্পট ইনস্ট্যান্স ব্যবহারকারীদের জন্য উপকারী। কম্পিউট প্রকারের একটি বিস্তৃত পরিসরের অন্তর্ভুক্তি খরচ-দক্ষতা বাড়ায়, যা উপযোগী সম্পদ বরাদ্দের অনুমতি দেয়। অধিকন্তু, মাল্টি-এজেড সমর্থন বর্ধিত প্রাপ্যতা প্রদান করে। এই বাধ্যতামূলক বৈশিষ্ট্যগুলি বিভিন্ন কম্পিউটিং পরিস্থিতিতে উন্নত কর্মক্ষমতা, খরচ অপ্টিমাইজেশান এবং নির্ভরযোগ্যতার সাথে বড় ডেটা ওয়ার্কলোডগুলি পরিচালনা করার জন্য একটি শক্তিশালী সমাধান প্রদান করে।

উপসংহার

এই পোস্টে, আমরা ব্যাখ্যা করেছি যে কীভাবে অ্যামাজন উচ্চ মাত্রার এবং কর্মক্ষমতার জন্য অ্যামাজন EMR-এর সাথে তার উচ্চ-ভলিউম আর্থিক পুনর্মিলন প্রক্রিয়াটিকে অপ্টিমাইজ করেছে। আপনার যদি একটি একচেটিয়া অ্যাপ্লিকেশন থাকে যা অতিরিক্ত অনুরোধ বা ডেটাসেটগুলি প্রক্রিয়া করার জন্য উল্লম্ব স্কেলিং এর উপর নির্ভর করে, তাহলে এটিকে একটি বিতরণকৃত প্রক্রিয়াকরণ কাঠামো যেমন Apache Spark এ স্থানান্তরিত করা এবং গণনার জন্য Amazon EMR এর মতো একটি পরিচালিত পরিষেবা বেছে নেওয়া আপনার ডেলিভারি কমাতে রানটাইম কমাতে সাহায্য করতে পারে। SLA, এবং মালিকানার মোট খরচ (TCO) কমাতেও সাহায্য করতে পারে।

যেহেতু আমরা এই বিশেষ ব্যবহারের ক্ষেত্রে Amazon EMR কে আলিঙ্গন করি, আমরা আপনাকে আপনার ডেটা উদ্ভাবনের যাত্রায় আরও সম্ভাবনাগুলি অন্বেষণ করতে উত্সাহিত করি৷ আপনার অনন্য ব্যবহারের ক্ষেত্রে উপযোগী সেরা AWS পরিষেবাটি আবিষ্কার করতে EMR সার্ভারলেস বা EKS-এ অ্যামাজন ইএমআর-এর মতো অন্যান্য গতিশীল অ্যামাজন ইএমআর স্থাপনার বিকল্পগুলির সাথে AWS আঠালো মূল্যায়ন করার কথা বিবেচনা করুন। ডেটা উদ্ভাবনের যাত্রার ভবিষ্যত আরও অন্বেষণ করার জন্য উত্তেজনাপূর্ণ সম্ভাবনা এবং অগ্রগতি ধারণ করে।


লেখক সম্পর্কে

জিশান ক্ষেত্রপাল তিনি আমাজনের একজন সিনিয়র সফ্টওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার, যেখানে তিনি ক্লাউড কম্পিউটিং সার্ভারহীন আর্কিটেকচারের উপর ভিত্তি করে ফিনটেক পণ্যগুলি বিকাশ করেন যা কোম্পানিগুলির আইটি সাধারণ নিয়ন্ত্রণ, আর্থিক প্রতিবেদন এবং পরিচালনা, ঝুঁকি এবং সম্মতির জন্য নিয়ন্ত্রণের জন্য দায়ী৷

শক্তি মিশ্র তিনি AWS-এর একজন প্রিন্সিপাল সলিউশন আর্কিটেক্ট, যেখানে তিনি গ্রাহকদের তাদের ডেটা আর্কিটেকচার আধুনিকীকরণ করতে এবং ডেটা নিরাপত্তা, অ্যাক্সেসিবিলিটি, গভর্নেন্স এবং আরও অনেক কিছু সহ তাদের এন্ড-টু-এন্ড ডেটা কৌশল নির্ধারণ করতে সাহায্য করেন। বইটির লেখকও তিনি Amazon EMR দিয়ে বিগ ডেটা অ্যানালিটিক্সকে সরল করুন. কাজের বাইরে, শক্তি নতুন প্রযুক্তি শেখা, সিনেমা দেখা এবং পরিবারের সাথে জায়গাগুলি দেখতে পছন্দ করে।

স্পট_আইএমজি

সর্বশেষ বুদ্ধিমত্তা

স্পট_আইএমজি