និមិត្តសញ្ញា Zephyrnet

របៀបដែល Amazon បង្កើនប្រសិទ្ធភាពដំណើរការផ្សះផ្សាហិរញ្ញវត្ថុបរិមាណខ្ពស់របស់ខ្លួនជាមួយ Amazon EMR សម្រាប់សមត្ថភាព និងដំណើរការកាន់តែខ្ពស់ | សេវាកម្មគេហទំព័រ Amazon

កាលបរិច្ឆេទ:

ការផ្សះផ្សាគណនីគឺជាជំហានដ៏សំខាន់មួយដើម្បីធានាបាននូវភាពពេញលេញ និងភាពត្រឹមត្រូវនៃរបាយការណ៍ហិរញ្ញវត្ថុ។ ជាពិសេសក្រុមហ៊ុនត្រូវតែផ្សះផ្សា តារាងតុល្យការ គណនីដែលអាចមានព័ត៌មានមិនពិតសំខាន់ៗ ឬជាខ្លឹមសារ។ គណនេយ្យករឆ្លងកាត់គណនីនីមួយៗនៅក្នុងសៀវភៅបញ្ជីទូទៅនៃគណនី ហើយផ្ទៀងផ្ទាត់ថាសមតុល្យដែលបានរាយបញ្ជីគឺពេញលេញ និងត្រឹមត្រូវ។ នៅពេលរកឃើញភាពខុសគ្នា គណនេយ្យករស៊ើបអង្កេត និងចាត់វិធានការកែតម្រូវសមស្រប។

ក្នុងនាមជាផ្នែកមួយនៃអង្គការ FinTech របស់ Amazon យើងផ្តល់ជូននូវវេទិកាកម្មវិធីដែលផ្តល់សិទ្ធិអំណាចដល់ក្រុមគណនេយ្យផ្ទៃក្នុងនៅ Amazon ដើម្បីធ្វើការផ្សះផ្សាគណនី។ ដើម្បីបង្កើនប្រសិទ្ធភាពដំណើរការផ្សះផ្សា អ្នកប្រើប្រាស់ទាំងនេះទាមទារការបំប្លែងប្រកបដោយប្រសិទ្ធភាពខ្ពស់ ជាមួយនឹងសមត្ថភាពក្នុងការធ្វើមាត្រដ្ឋានតាមតម្រូវការ ក៏ដូចជាសមត្ថភាពក្នុងការដំណើរការទំហំឯកសារដែលអាចផ្លាស់ប្តូរបានចាប់ពីកម្រិតទាបពីពីរបី MBs ដល់លើសពី 100 GB។ វាមិនតែងតែអាចធ្វើទៅបានក្នុងការបញ្ចូលទិន្នន័យទៅក្នុងម៉ាស៊ីនតែមួយ ឬដំណើរការវាជាមួយកម្មវិធីតែមួយក្នុងពេលវេលាសមហេតុផលនោះទេ។ ការគណនានេះត្រូវធ្វើលឿនល្មមដើម្បីផ្តល់សេវាកម្មជាក់ស្តែង ដែលតក្កវិជ្ជានៃការសរសេរកម្មវិធី និងព័ត៌មានលម្អិតមូលដ្ឋាន (ការចែកចាយទិន្នន័យ ការអត់ឱនកំហុស និងការកំណត់កាលវិភាគ) អាចបំបែកបាន។

យើងអាចសម្រេចបាននូវការគណនាដំណាលគ្នាទាំងនេះនៅលើម៉ាស៊ីនច្រើន ឬខ្សែដែលមានមុខងារដូចគ្នាឆ្លងកាត់ក្រុមនៃធាតុនៃសំណុំទិន្នន័យដោយប្រើដំណោះស្រាយដំណើរការទិន្នន័យដែលបានចែកចាយ។ នេះបានលើកទឹកចិត្តឱ្យយើងបង្កើតសេវាកម្មផ្សះផ្សារបស់យើងឡើងវិញដែលដំណើរការដោយសេវាកម្ម AWS រួមទាំង អាម៉ាហ្សូន EMR និង Apache Spark គ្រោងការណ៍ដំណើរការចែកចាយដែលប្រើ PySpark. សេវាកម្មនេះអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ដំណើរការឯកសារលើសពី 100 GB ដែលមានប្រតិបត្តិការរហូតដល់ 100 លានក្នុងរយៈពេលតិចជាង 30 នាទី។ សេវាកម្មផ្សះផ្សាបានក្លាយទៅជាថាមពលមួយសម្រាប់ដំណើរការទិន្នន័យ ហើយឥឡូវនេះអ្នកប្រើប្រាស់អាចអនុវត្តប្រតិបត្តិការផ្សេងៗបានយ៉ាងរលូន ដូចជា អ្នកជំនួយការ, ចូលរួម (ដូចជាប្រតិបត្តិការ Excel VLOOKUP) នព្វន្ធ ប្រតិបត្តិការ, និង ច្រើនទៀតដោយផ្តល់នូវដំណោះស្រាយដ៏សម្បូរបែប និងមានប្រសិទ្ធភាពសម្រាប់ការផ្សះផ្សាសំណុំទិន្នន័យដ៏ធំ។ ភាពប្រសើរឡើងនេះគឺជាសក្ខីភាពមួយចំពោះវិសាលភាព និងល្បឿនដែលសម្រេចបានតាមរយៈការទទួលយកដំណោះស្រាយដំណើរការទិន្នន័យដែលបានចែកចាយ។

នៅក្នុងការប្រកាសនេះ យើងពន្យល់ពីរបៀបដែលយើងរួមបញ្ចូល Amazon EMR ដើម្បីបង្កើតប្រព័ន្ធដែលអាចប្រើបាន និងអាចធ្វើមាត្រដ្ឋានបានដែលអាចឱ្យយើងដំណើរការដំណើរការផ្សះផ្សាហិរញ្ញវត្ថុបរិមាណខ្ពស់។

ស្ថាបត្យកម្មមុនពេលធ្វើចំណាកស្រុក

ដ្យាក្រាមខាងក្រោមបង្ហាញពីស្ថាបត្យកម្មពីមុនរបស់យើង។

សេវាកម្មកេរដំណែលរបស់យើងត្រូវបានបង្កើតឡើងជាមួយ សេវាកម្មកុងតឺន័រអេល្យូមអេល (Amazon ECS) បើក អេសអេចហ្វាហ្គេត. យើងបានដំណើរការទិន្នន័យជាបន្តបន្ទាប់ដោយប្រើ Python ។ ទោះយ៉ាងណាក៏ដោយ ដោយសារកង្វះសមត្ថភាពដំណើរការស្របគ្នា យើងត្រូវបង្កើនទំហំចង្កោមបញ្ឈរ ដើម្បីគាំទ្រសំណុំទិន្នន័យធំជាង។ សម្រាប់បរិបទ ទិន្នន័យ 5 GB ជាមួយប្រតិបត្តិការ 50 ត្រូវចំណាយពេលប្រហែល 3 ម៉ោងដើម្បីដំណើរការ។ សេវាកម្មនេះត្រូវបានកំណត់រចនាសម្ព័ន្ធដើម្បីធ្វើមាត្រដ្ឋានផ្ដេកទៅប្រាំករណី ECS ដែលស្ទង់មតិសារពី សេវាកម្មជួរធម្មតារបស់ Amazon (Amazon SQS) ដែលផ្តល់អាហារដល់សំណើផ្លាស់ប្តូរ។ ឧទាហរណ៍នីមួយៗត្រូវបានកំណត់រចនាសម្ព័ន្ធជាមួយ vCPU 4 និងអង្គចងចាំ 30 GB ដើម្បីអនុញ្ញាតឱ្យធ្វើមាត្រដ្ឋានផ្ដេក។ ទោះជាយ៉ាងណាក៏ដោយ យើងមិនអាចពង្រីកសមត្ថភាពរបស់ខ្លួនលើការអនុវត្តបានទេ ដោយសារដំណើរការនេះកើតឡើងជាបន្តបន្ទាប់ ដោយជ្រើសរើសផ្នែកនៃទិន្នន័យពី សេវាកម្មផ្ទុកសាមញ្ញរបស់ក្រុមហ៊ុន Amazon (Amazon S3) សម្រាប់ដំណើរការ។ ឧទាហរណ៍ ប្រតិបត្តិការ VLOOKUP ដែលឯកសារពីរត្រូវភ្ជាប់គ្នា តម្រូវឱ្យឯកសារទាំងពីរត្រូវបានអានក្នុងអង្គចងចាំដោយកំណាត់ដើម្បីទទួលបានលទ្ធផល។ នេះបានក្លាយជាឧបសគ្គសម្រាប់អ្នកប្រើប្រាស់ ដោយសារតែពួកគេត្រូវរង់ចាំរយៈពេលយូរដើម្បីដំណើរការសំណុំទិន្នន័យរបស់ពួកគេ។

ជាផ្នែកមួយនៃការកសាងឡើងវិញនូវស្ថាបត្យកម្ម និងទំនើបកម្មរបស់យើង យើងចង់សម្រេចបានដូចខាងក្រោម៖

  • លទ្ធភាពខ្ពស់ - ចង្កោមដំណើរការទិន្នន័យគួរតែមានកម្រិតខ្ពស់ ដោយផ្តល់នូវភាពអាចរកបាន 9s ចំនួនបី (99.9%)
  • តាមរយៈ - សេវាកម្មគួរតែដំណើរការ 1,500 ក្នុងមួយថ្ងៃ
  • ភាពយឺតយ៉ាវ - វាគួរតែអាចដំណើរការទិន្នន័យ 100 GB ក្នុងរយៈពេល 30 នាទី។
  • អង្កត់ផ្ចិត - ចង្កោមគួរតែអាចទ្រទ្រង់បន្ទុកការងារបានច្រើនប្រភេទ ដោយមានឯកសារចាប់ពីពីរបី MBs ដល់រាប់រយ GBs
  • សំណួរស្របគ្នា។ - ការអនុវត្តទាមទារសមត្ថភាពក្នុងការគាំទ្រអប្បបរមា 10 ដឺក្រេនៃស្របគ្នា។
  • ភាពជឿជាក់នៃការងារ និងភាពស៊ីសង្វាក់គ្នានៃទិន្នន័យ - ការងារត្រូវដំណើរការដោយភាពជឿជាក់ និងជាប់លាប់ ដើម្បីជៀសវាងការបំពានលើកិច្ចព្រមព្រៀងកម្រិតសេវាកម្ម (SLAs)
  • សន្សំសំចៃ និងអាចធ្វើមាត្រដ្ឋានបាន។ - វាត្រូវតែអាចធ្វើមាត្រដ្ឋានបានដោយផ្អែកលើបន្ទុកការងារ ដែលធ្វើឱ្យវាមានប្រសិទ្ធភាពចំណាយ
  • សុវត្ថិភាពនិងការអនុលោមតាមច្បាប់ - ដោយសារភាពរសើបនៃទិន្នន័យ វាត្រូវតែគាំទ្រការគ្រប់គ្រងការចូលដំណើរការប្រកបដោយគុណភាព និងការអនុវត្តសុវត្ថិភាពសមស្រប
  • ការតាមដាន - ដំណោះស្រាយត្រូវតែផ្តល់ការត្រួតពិនិត្យពីចុងដល់ចប់នៃចង្កោម និងការងារ

ហេតុអ្វីបានជាក្រុមហ៊ុន Amazon EMR

Amazon EMR គឺជាដំណោះស្រាយទិន្នន័យដ៏ធំរបស់ពពកឈានមុខគេក្នុងឧស្សាហកម្មសម្រាប់ដំណើរការទិន្នន័យទំហំ petabyte ការវិភាគអន្តរកម្ម និងការរៀនម៉ាស៊ីន (ML) ដោយប្រើក្របខ័ណ្ឌប្រភពបើកចំហដូចជា Apache Spark, Apache Hiveនិង Presto. ជាមួយនឹងក្របខ័ណ្ឌទាំងនេះ និងគម្រោងប្រភពបើកចំហដែលពាក់ព័ន្ធ អ្នកអាចដំណើរការទិន្នន័យសម្រាប់គោលបំណងវិភាគ និងបន្ទុកការងារ BI ។ Amazon EMR អនុញ្ញាត​ឱ្យ​អ្នក​បំប្លែង និង​ផ្លាស់ទី​ទិន្នន័យ​ដ៏​ច្រើន​ក្នុង និង​ក្រៅ​ឃ្លាំង​ទិន្នន័យ និង​មូលដ្ឋាន​ទិន្នន័យ AWS ផ្សេងទៀត ដូចជា Amazon S3 និង ក្រុមហ៊ុន Amazon DynamoDB.

អត្ថប្រយោជន៍គួរឱ្យកត់សម្គាល់នៃ Amazon EMR ស្ថិតនៅក្នុងការប្រើប្រាស់ប្រកបដោយប្រសិទ្ធភាពនៃដំណើរការប៉ារ៉ាឡែលជាមួយ PySpark ដែលបង្ហាញពីភាពប្រសើរឡើងគួរឱ្យកត់សម្គាល់លើកូដ Python បន្តបន្ទាប់គ្នា។ វិធីសាស្រ្តប្រកបដោយភាពច្នៃប្រឌិតនេះជួយសម្រួលដល់ការដាក់ពង្រាយ និងការធ្វើមាត្រដ្ឋាននៃក្រុម Apache Spark ដែលអនុញ្ញាតឱ្យមានភាពស្របគ្នាប្រកបដោយប្រសិទ្ធភាពលើសំណុំទិន្នន័យធំ។ ហេដ្ឋារចនាសម្ព័ន្ធកុំព្យូទ័រដែលបានចែកចាយមិនត្រឹមតែបង្កើនប្រសិទ្ធភាពប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងអាចដំណើរការទិន្នន័យយ៉ាងច្រើនក្នុងល្បឿនដែលមិនធ្លាប់មានពីមុនមក។ បំពាក់ដោយបណ្ណាល័យ PySpark ជួយសម្រួលដល់ប្រតិបត្តិការដូច Excel ស៊ុមទិន្នន័យនិងអរូបីកម្រិតខ្ពស់នៃ DataFrames ជួយសម្រួលដល់ការរៀបចំទិន្នន័យដ៏ស្មុគស្មាញ ដោយកាត់បន្ថយភាពស្មុគស្មាញនៃកូដ។ រួមបញ្ចូលគ្នាជាមួយនឹងការផ្តល់ចង្កោមដោយស្វ័យប្រវត្តិ ការបែងចែកធនធានថាមវន្ត និងការរួមបញ្ចូលជាមួយសេវាកម្ម AWS ផ្សេងទៀត Amazon EMR បង្ហាញថាជាដំណោះស្រាយដ៏សម្បូរបែបដែលសមរម្យសម្រាប់បន្ទុកការងារចម្រុះ ចាប់ពីដំណើរការជាបាច់រហូតដល់ ML ។ ការអត់ឱនកំហុសដែលមានស្រាប់នៅក្នុង PySpark និង Amazon EMR លើកកម្ពស់ភាពរឹងមាំ ទោះបីជាក្នុងករណីមានការបរាជ័យថ្នាំងក៏ដោយ ធ្វើឱ្យវាក្លាយជាជម្រើសដែលអាចធ្វើមាត្រដ្ឋាន សន្សំសំចៃ និងមានប្រសិទ្ធភាពខ្ពស់សម្រាប់ដំណើរការទិន្នន័យស្របគ្នានៅលើ AWS ។

Amazon EMR ពង្រីកសមត្ថភាពរបស់ខ្លួនលើសពីមូលដ្ឋាន ដោយផ្តល់ជូននូវជម្រើសនៃការដាក់ពង្រាយជាច្រើន ដើម្បីបំពេញតម្រូវការចម្រុះ។ ថាតើវាជា Amazon EMR នៅលើ EC2, Amazon EMR នៅលើ EKS, Amazon EMR ServerlessAmazon EMR នៅលើ AWS Outpostsអ្នកអាចកែសម្រួលវិធីសាស្រ្តរបស់អ្នកទៅនឹងតម្រូវការជាក់លាក់។ សម្រាប់អ្នកដែលស្វែងរកបរិយាកាសគ្មានម៉ាស៊ីនមេសម្រាប់ការងារ Spark ការរួមបញ្ចូល កាវអេវ ក៏ជាជម្រើសដែលអាចសម្រេចបាន។ បន្ថែមពីលើការគាំទ្រក្របខ័ណ្ឌប្រភពបើកចំហជាច្រើនរួមទាំង Spark ក្រុមហ៊ុន Amazon EMR ផ្តល់នូវភាពបត់បែនក្នុងការជ្រើសរើសរបៀបដាក់ឱ្យប្រើប្រាស់។ ក្រុមហ៊ុនអេលហ្សិកអេលហ្វីលីពក្លោត (Amazon EC2) ប្រភេទឧទាហរណ៍ យន្តការធ្វើមាត្រដ្ឋាន និងបច្ចេកទេសបង្កើនប្រសិទ្ធភាពសន្សំសំចៃថ្លៃដើមជាច្រើន។

Amazon EMR ឈរជាកម្លាំងថាមវន្តនៅក្នុងពពក ដែលផ្តល់នូវសមត្ថភាពដែលមិនអាចប្រៀបផ្ទឹមបានសម្រាប់អង្គការដែលកំពុងស្វែងរកដំណោះស្រាយទិន្នន័យធំដ៏រឹងមាំ។ ការរួមបញ្ចូលយ៉ាងរលូន លក្ខណៈពិសេសដ៏មានអានុភាព និងការសម្របខ្លួនធ្វើឱ្យវាក្លាយជាឧបករណ៍ដែលមិនអាចខ្វះបានសម្រាប់ការរុករកភាពស្មុគស្មាញនៃការវិភាគទិន្នន័យ និង ML នៅលើ AWS ។

រចនាឡើងវិញនូវស្ថាបត្យកម្ម

ដ្យាក្រាមខាងក្រោមបង្ហាញពីស្ថាបត្យកម្មដែលបានរចនាឡើងវិញរបស់យើង។

ដំណោះស្រាយដំណើរការក្រោមកិច្ចសន្យា API ដែលអតិថិជនអាចបញ្ជូនការកំណត់រចនាសម្ព័ន្ធបំប្លែង ដោយកំណត់សំណុំប្រតិបត្តិការរួមជាមួយទីតាំងសំណុំទិន្នន័យ S3 សម្រាប់ដំណើរការ។ សំណើនេះត្រូវបានតម្រង់ជួរតាមរយៈ Amazon SQS បន្ទាប់មកបញ្ជូនទៅ Amazon EMR តាមរយៈមុខងារ Lambda ។ ដំណើរការនេះផ្តួចផ្តើមបង្កើតជំហាន Amazon EMR សម្រាប់ការអនុវត្តក្របខ័ណ្ឌ Spark នៅលើចង្កោម EMR ដែលខិតខំប្រឹងប្រែង។ ទោះបីជា Amazon EMR ផ្ទុកនូវចំនួនជំហានគ្មានដែនកំណត់លើអាយុកាលរបស់ចង្កោមដែលដំណើរការយូរក៏ដោយ មានតែ 256 ជំហានប៉ុណ្ណោះដែលអាចដំណើរការ ឬកំពុងរង់ចាំក្នុងពេលដំណាលគ្នា។ សម្រាប់ភាពស្របគ្នាដ៏ល្អប្រសើរ ជំហានស្របគ្នាត្រូវបានកំណត់នៅ 10 ដែលអនុញ្ញាតឱ្យ 10 ជំហានដំណើរការក្នុងពេលដំណាលគ្នា។ ក្នុងករណីសំណើសុំបរាជ័យ Amazon SQS ជួរអក្សរស្លាប់ (DLQ) រក្សាព្រឹត្តិការណ៍។ Spark ដំណើរការសំណើ ដោយបកប្រែប្រតិបត្តិការដូច Excel ទៅជាកូដ PySpark សម្រាប់ផែនការសំណួរប្រកបដោយប្រសិទ្ធភាព។ Resilient DataFrames រក្សាទុកការបញ្ចូល ទិន្នផល និងទិន្នន័យកម្រិតមធ្យមនៅក្នុងអង្គចងចាំ បង្កើនប្រសិទ្ធភាពល្បឿនដំណើរការ កាត់បន្ថយថ្លៃចំណាយលើឌីស I/O បង្កើនប្រសិទ្ធភាពការងារ និងបញ្ជូនលទ្ធផលចុងក្រោយទៅកាន់ទីតាំង Amazon S3 ដែលបានបញ្ជាក់។

យើងកំណត់ SLA របស់យើងជាពីរវិមាត្រ៖ ភាពយឺតយ៉ាវ និងកម្រិតបញ្ជូន។ Latency ត្រូវបានកំណត់ថាជាចំនួនពេលវេលាដែលត្រូវអនុវត្តការងារមួយធៀបនឹងទំហំសំណុំទិន្នន័យកំណត់ និងចំនួនប្រតិបត្តិការដែលបានអនុវត្តលើសំណុំទិន្នន័យ។ លំហូរត្រូវបានកំណត់ជាចំនួនអតិបរមានៃការងារដំណាលគ្នាដែលសេវាកម្មអាចអនុវត្តដោយមិនបំពាន SLA នៃភាពយឺតយ៉ាវនៃការងារមួយ។ លទ្ធភាពធ្វើមាត្រដ្ឋានរួម SLA នៃសេវាកម្មគឺអាស្រ័យលើតុល្យភាពនៃមាត្រដ្ឋានផ្ដេកនៃធនធានគណនាយឺត និងការធ្វើមាត្រដ្ឋានបញ្ឈរនៃម៉ាស៊ីនមេនីមួយៗ។

ដោយសារតែយើងត្រូវដំណើរការដំណើរការ 1,500 ក្នុងមួយថ្ងៃជាមួយនឹងភាពយឺតយ៉ាវតិចបំផុត និងដំណើរការខ្ពស់ យើងជ្រើសរើសបញ្ចូល Amazon EMR លើរបៀបដាក់ពង្រាយ EC2 ជាមួយនឹងការធ្វើមាត្រដ្ឋានដែលបានគ្រប់គ្រងដើម្បីគាំទ្រដំណើរការទំហំឯកសារអថេរ។

ការកំណត់រចនាសម្ព័ន្ធចង្កោម EMR ផ្តល់នូវជម្រើសផ្សេងៗជាច្រើន៖

  • ប្រភេទថ្នាំង EMR - បឋម ស្នូល ឬថ្នាំងកិច្ចការ
  • ជម្រើសទិញឧទាហរណ៍ - វត្ថុតាមតំរូវការ វត្ថុដែលបានបម្រុងទុក ឬឧប្បត្តិហេតុ Spot
  • ជម្រើសកំណត់រចនាសម្ព័ន្ធ - ក្រុមឧទ្ទាម EMR ឬក្រុមឧទាហរណ៍ឯកសណ្ឋាន
  • ជម្រើសធ្វើមាត្រដ្ឋាន - ការធ្វើមាត្រដ្ឋានដោយស្វ័យប្រវត្តិ ឬ Amazon EMR គ្រប់គ្រងការធ្វើមាត្រដ្ឋាន

ដោយផ្អែកលើបន្ទុកការងារអថេររបស់យើង យើងបានកំណត់រចនាសម្ព័ន្ធកងនាវា EMR (សម្រាប់ការអនុវត្តល្អបំផុត សូមមើល ភាពអាចជឿជាក់បាន) យើងក៏បានសម្រេចចិត្តប្រើ Amazon EMR គ្រប់គ្រងការធ្វើមាត្រដ្ឋានដើម្បីធ្វើមាត្រដ្ឋានស្នូល និងថ្នាំងកិច្ចការ (សម្រាប់សេណារីយ៉ូធ្វើមាត្រដ្ឋាន សូមមើល សេណារីយ៉ូនៃការបែងចែកថ្នាំង) ជាចុងក្រោយ យើងបានជ្រើសរើស memory-optimized AWS Graviton ករណីដែលផ្តល់រហូតដល់ ការចំណាយទាប 30% និងដំណើរការប្រសើរឡើងរហូតដល់ 15% សម្រាប់បន្ទុកការងាររបស់ Spark.

កូដខាងក្រោមផ្តល់នូវរូបថតនៃការកំណត់រចនាសម្ព័ន្ធចង្កោមរបស់យើង៖

Concurrent steps:10

EMR Managed Scaling:
minimumCapacityUnits: 64
maximumCapacityUnits: 512
maximumOnDemandCapacityUnits: 512
maximumCoreCapacityUnits: 512

Master Instance Fleet:
r6g.xlarge
- 4 vCore, 30.5 GiB memory, EBS only storage
- EBS Storage:250 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 1 units
r6g.2xlarge
- 8 vCore, 61 GiB memory, EBS only storage
- EBS Storage:250 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 1 units

Core Instance Fleet:
r6g.2xlarge
- 8 vCore, 61 GiB memory, EBS only storage
- EBS Storage:100 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 8 units
r6g.4xlarge
- 16 vCore, 122 GiB memory, EBS only storage
- EBS Storage:100 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 16 units

Task Instances:
r6g.2xlarge
- 8 vCore, 61 GiB memory, EBS only storage
- EBS Storage:100 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 8 units
r6g.4xlarge
- 16 vCore, 122 GiB memory, EBS only storage
- EBS Storage:100 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 16 units

ការសម្តែង

ជាមួយនឹងការធ្វើចំណាកស្រុករបស់យើងទៅកាន់ Amazon EMR យើងអាចសម្រេចបាននូវដំណើរការប្រព័ន្ធដែលមានសមត្ថភាពគ្រប់គ្រងសំណុំទិន្នន័យផ្សេងៗគ្នាចាប់ពីកម្រិតទាបរហូតដល់ 273 B ដល់ខ្ពស់រហូតដល់ 88.5 GB ជាមួយនឹង p99 491 វិនាទី (ប្រហែល 8 នាទី) ។

រូបខាងក្រោមបង្ហាញពីភាពខុសគ្នានៃទំហំឯកសារដែលបានដំណើរការ។

តួលេខខាងក្រោមបង្ហាញពីភាពយឺតយ៉ាវរបស់យើង។

ដើម្បីប្រៀបធៀបទៅនឹងដំណើរការបន្តបន្ទាប់គ្នា យើងបានយកសំណុំទិន្នន័យចំនួនពីរដែលមានកំណត់ត្រាចំនួន 53 លាន ហើយដំណើរការប្រតិបត្តិការ VLOOKUP ប្រឆាំងនឹងគ្នាទៅវិញទៅមក រួមជាមួយនឹងប្រតិបត្តិការដូច Excel ចំនួន 49 ផ្សេងទៀត។ វាចំណាយពេល 26 នាទីដើម្បីដំណើរការនៅក្នុងសេវាកម្មថ្មី បើធៀបនឹង 5 ថ្ងៃដើម្បីដំណើរការនៅក្នុងសេវាកម្មចាស់។ ភាពប្រសើរឡើងនេះគឺស្ទើរតែ 300 ដងច្រើនជាងស្ថាបត្យកម្មមុននៅក្នុងលក្ខខណ្ឌនៃការអនុវត្ត។

ការពិចារណា

សូមចងចាំដូចខាងក្រោម នៅពេលពិចារណាដំណោះស្រាយនេះ៖

  • ចង្កោមដែលមានទំហំត្រឹមត្រូវ។ - ទោះបីជា Amazon EMR អាចផ្លាស់ប្តូរទំហំបានក៏ដោយ វាជារឿងសំខាន់ក្នុងការកំណត់ទំហំចង្កោមត្រឹមត្រូវ។ ការកំណត់ទំហំស្តាំកាត់បន្ថយចង្កោមយឺត ប្រសិនបើទំហំតូច ឬថ្លៃជាង ប្រសិនបើចង្កោមមានទំហំធំ។ ដើម្បីប្រមើលមើលបញ្ហាទាំងនេះ អ្នកអាចគណនាចំនួន និងប្រភេទថ្នាំងដែលនឹងត្រូវការសម្រាប់បន្ទុកការងារ។
  • ជំហានស្របគ្នា។ - ការរត់ជំហានស្របគ្នាអនុញ្ញាតឱ្យអ្នកដំណើរការបន្ទុកការងារកម្រិតខ្ពស់បន្ថែមទៀត បង្កើនការប្រើប្រាស់ធនធានចង្កោម និងកាត់បន្ថយពេលវេលាដែលត្រូវចំណាយដើម្បីបំពេញបន្ទុកការងាររបស់អ្នក។ ចំនួនជំហានដែលអនុញ្ញាតឱ្យដំណើរការក្នុងពេលតែមួយគឺអាចកំណត់រចនាសម្ព័ន្ធបាន ហើយអាចត្រូវបានកំណត់នៅពេលដែលចង្កោមត្រូវបានបើកដំណើរការ និងនៅពេលណាក៏បានបន្ទាប់ពីចង្កោមបានចាប់ផ្តើម។ អ្នកត្រូវពិចារណា និងបង្កើនប្រសិទ្ធភាពការប្រើប្រាស់ CPU/memory ក្នុងមួយការងារ នៅពេលដែលការងារច្រើនកំពុងដំណើរការនៅក្នុងចង្កោមតែមួយ។
  • ចង្កោម EMR បណ្តោះអាសន្នផ្អែកលើការងារ - ប្រសិនបើអាចអនុវត្តបាន វាត្រូវបានណែនាំអោយប្រើបណ្តុំ EMR បណ្តោះអាសន្នផ្អែកលើការងារ ដែលផ្តល់ភាពឯកោល្អលើសគេ ដោយផ្ទៀងផ្ទាត់ថាកិច្ចការនីមួយៗដំណើរការក្នុងបរិយាកាសជាក់លាក់របស់វា។ វិធីសាស្រ្តនេះបង្កើនប្រសិទ្ធភាពនៃការប្រើប្រាស់ធនធាន ជួយការពារការជ្រៀតជ្រែករវាងការងារ និងបង្កើនការអនុវត្តរួម និងភាពជឿជាក់។ ធម្មជាតិបណ្តោះអាសន្នអនុញ្ញាតឱ្យធ្វើមាត្រដ្ឋានប្រកបដោយប្រសិទ្ធភាព ផ្តល់នូវដំណោះស្រាយដ៏រឹងមាំ និងដាច់ដោយឡែកសម្រាប់តម្រូវការដំណើរការទិន្នន័យចម្រុះ។
  • EMR Serverless - EMR Serverless គឺជាជម្រើសដ៏ល្អ ប្រសិនបើអ្នកមិនចង់គ្រប់គ្រងការគ្រប់គ្រង និងប្រតិបត្តិការនៃចង្កោម។ វាអនុញ្ញាតឱ្យអ្នកដំណើរការកម្មវិធីដោយមិនចាំបាច់ប្រឹងប្រែងដោយប្រើក្របខណ្ឌប្រភពបើកចំហដែលមាននៅក្នុង EMR Serverless ដោយផ្តល់នូវបទពិសោធន៍ដ៏សាមញ្ញ និងគ្មានបញ្ហា។
  • Amazon EMR នៅលើ EKS - Amazon EMR នៅលើ EKS ផ្តល់នូវអត្ថប្រយោជន៍ផ្សេងៗគ្នា ដូចជាពេលចាប់ផ្តើមដំណើរការលឿនជាងមុន និងធ្វើឱ្យប្រសើរឡើងនូវលទ្ធភាពដោះស្រាយការប្រឈមមុខនឹងសមត្ថភាពគណនា ដែលមានប្រយោជន៍ជាពិសេសសម្រាប់អ្នកប្រើប្រាស់ Graviton និង Spot Instance ។ ការដាក់បញ្ចូលនូវប្រភេទកុំព្យូទ័រដ៏ទូលំទូលាយ បង្កើនប្រសិទ្ធភាពចំណាយ ដែលអនុញ្ញាតឱ្យបែងចែកធនធានតាមតម្រូវការ។ លើសពីនេះ ការគាំទ្រ Multi-AZ ផ្តល់នូវភាពអាចរកបានកាន់តែច្រើន។ លក្ខណៈពិសេសគួរឱ្យទាក់ទាញទាំងនេះផ្តល់នូវដំណោះស្រាយដ៏រឹងមាំមួយសម្រាប់ការគ្រប់គ្រងបន្ទុកទិន្នន័យធំ ជាមួយនឹងការអនុវត្តប្រសើរឡើង ការបង្កើនប្រសិទ្ធភាពតម្លៃ និងភាពជឿជាក់លើសេណារីយ៉ូកុំព្យូទ័រផ្សេងៗ។

សន្និដ្ឋាន

នៅក្នុងការប្រកាសនេះ យើងបានពន្យល់ពីរបៀបដែលក្រុមហ៊ុន Amazon បង្កើនប្រសិទ្ធភាពដំណើរការផ្សះផ្សាហិរញ្ញវត្ថុបរិមាណខ្ពស់របស់ខ្លួនជាមួយ Amazon EMR សម្រាប់សមត្ថភាព និងដំណើរការកាន់តែខ្ពស់។ ប្រសិនបើអ្នកមានកម្មវិធី monolithic ដែលពឹងផ្អែកលើការធ្វើមាត្រដ្ឋានបញ្ឈរដើម្បីដំណើរការសំណើបន្ថែម ឬសំណុំទិន្នន័យ នោះការផ្ទេរវាទៅក្របខ័ណ្ឌដំណើរការដែលបានចែកចាយដូចជា Apache Spark ហើយជ្រើសរើសសេវាកម្មដែលបានគ្រប់គ្រងដូចជា Amazon EMR សម្រាប់ការគណនាអាចជួយកាត់បន្ថយពេលវេលាដំណើរការដើម្បីបន្ថយការដឹកជញ្ជូនរបស់អ្នក។ SLA ហើយក៏អាចជួយកាត់បន្ថយការចំណាយសរុបនៃកម្មសិទ្ធិ (TCO) ផងដែរ។

នៅពេលដែលយើងទទួលយក Amazon EMR សម្រាប់ករណីប្រើប្រាស់ពិសេសនេះ យើងលើកទឹកចិត្តអ្នកឱ្យស្វែងរកលទ្ធភាពបន្ថែមទៀតនៅក្នុងដំណើរច្នៃប្រឌិតទិន្នន័យរបស់អ្នក។ ពិចារណាលើការវាយតម្លៃ AWS Glue រួមជាមួយនឹងជម្រើសនៃការដាក់ពង្រាយ Amazon EMR ថាមវន្តផ្សេងទៀតដូចជា EMR Serverless ឬ Amazon EMR នៅលើ EKS ដើម្បីស្វែងរកសេវាកម្ម AWS ដ៏ល្អបំផុតដែលតម្រូវតាមករណីប្រើប្រាស់តែមួយគត់របស់អ្នក។ អនាគតនៃដំណើរឆ្ពោះទៅរកការច្នៃប្រឌិតទិន្នន័យ ទទួលបានលទ្ធភាព និងវឌ្ឍនភាពដ៏គួរឱ្យរំភើប ដែលត្រូវស្វែងរកបន្ថែមទៀត។


អំពីនិពន្ធនេះ

Jeeshan Khetrapal គឺជាវិស្វករអភិវឌ្ឍន៍កម្មវិធី Sr. នៅក្រុមហ៊ុន Amazon ជាកន្លែងដែលគាត់បង្កើតផលិតផល fintech ដោយផ្អែកលើស្ថាបត្យកម្ម cloud computing serverless ដែលទទួលខុសត្រូវចំពោះការគ្រប់គ្រងទូទៅ IT របស់ក្រុមហ៊ុន របាយការណ៍ហិរញ្ញវត្ថុ និងការគ្រប់គ្រងសម្រាប់អភិបាលកិច្ច ហានិភ័យ និងការអនុលោមតាមច្បាប់។

Sakti Mishra គឺជាស្ថាបត្យករដំណោះស្រាយសំខាន់នៅ AWS ជាកន្លែងដែលគាត់ជួយអតិថិជនធ្វើទំនើបកម្មស្ថាបត្យកម្មទិន្នន័យរបស់ពួកគេ និងកំណត់យុទ្ធសាស្ត្រទិន្នន័យពីចុងដល់ចប់ រួមទាំងសុវត្ថិភាពទិន្នន័យ ភាពងាយស្រួល ការគ្រប់គ្រង និងច្រើនទៀត។ គាត់ក៏ជាអ្នកនិពន្ធសៀវភៅផងដែរ។ សម្រួលការវិភាគទិន្នន័យធំជាមួយ Amazon EMR. នៅខាងក្រៅការងារ Sakti ចូលចិត្តរៀនបច្ចេកវិទ្យាថ្មីៗ មើលកុន និងទៅលេងកន្លែងជាមួយគ្រួសារ។

spot_img

បញ្ញាចុងក្រោយ

spot_img