Logo Zephyrnet

Bawo ni Amazon ṣe iṣapeye ilana atunṣe owo-giga ti o ga julọ pẹlu Amazon EMR fun scalability ti o ga julọ ati iṣẹ | Amazon Web Services

ọjọ:

Ibaṣepọ akọọlẹ jẹ igbesẹ pataki lati rii daju pipe ati deede ti awọn alaye inawo. Ni pato, awọn ile-iṣẹ gbọdọ ṣe atunṣe iwontunwonsi awọn akọọlẹ ti o le ni awọn aiṣedeede pataki tabi ohun elo ninu. Awọn oniṣiro lọ nipasẹ akọọlẹ kọọkan ni akọọlẹ gbogbogbo ti awọn akọọlẹ ati rii daju pe iwọntunwọnsi ti a ṣe akojọ jẹ pipe ati deede. Nigbati a ba rii awọn aiṣedeede, awọn oniṣiro ṣe iwadii ati ṣe igbese atunṣe ti o yẹ.

Gẹgẹbi apakan ti Amazon's FinTech agbari, a funni ni ipilẹ sọfitiwia ti o fun awọn ẹgbẹ iṣiro inu inu ni Amazon lati ṣe awọn ilaja akọọlẹ. Lati mu ilana ilaja pọ si, awọn olumulo wọnyi nilo iyipada iṣẹ ṣiṣe giga pẹlu agbara lati ṣe iwọn lori ibeere, bakanna bi agbara lati ṣe ilana awọn iwọn faili oniyipada ti o wa lati kekere bi MBs diẹ si diẹ sii ju 100 GB. Ko ṣee ṣe nigbagbogbo lati baamu data sori ẹrọ ẹyọkan tabi ṣe ilana rẹ pẹlu eto ẹyọkan ni fireemu akoko ti oye. Iṣiro yii ni lati ṣe ni iyara to lati pese awọn iṣẹ to wulo nibiti ọgbọn siseto ati awọn alaye ti o wa ni ipilẹ (pinpin data, ifarada ẹbi, ati ṣiṣe eto) le yapa.

A le ṣaṣeyọri awọn iṣiro igbakọọkan wọnyi lori awọn ẹrọ pupọ tabi awọn okun ti iṣẹ kanna kọja awọn ẹgbẹ ti awọn eroja ti data nipa lilo awọn solusan sisẹ data pinpin. Eyi gba wa niyanju lati tun ṣe iṣẹ ilaja wa ti o ni agbara nipasẹ awọn iṣẹ AWS, pẹlu EMR Amazon ati awọn Agbejade Afun pin processing ilana, eyi ti o nlo PySpark. Iṣẹ yii ngbanilaaye awọn olumulo lati ṣe ilana awọn faili lori 100 GB ti o ni awọn iṣowo to 100 milionu ni o kere ju ọgbọn iṣẹju. Iṣẹ ilaja ti di ile agbara fun sisẹ data, ati ni bayi awọn olumulo le ṣe awọn iṣẹ ṣiṣe lọpọlọpọ, gẹgẹbi agbesoke, JOIN (gẹgẹbi iṣẹ VLOOKUP Excel kan), isiro mosi, ati diẹ, pese ojutu ti o wapọ ati lilo daradara fun ṣiṣe atunṣe awọn ipilẹ data ti o pọju. Imudara yii jẹ majẹmu si iwọn ati iyara ti o waye nipasẹ gbigba awọn solusan sisẹ data pinpin.

Ni ipo yii, a ṣe alaye bi a ṣe ṣafikun Amazon EMR lati kọ eto ti o wa pupọ ati ti iwọn ti o jẹ ki a ṣiṣẹ ilana ilaja owo-giga.

Faaji ṣaaju ki o to ijira

Àwòrán tí ó tẹ̀ lé e yìí ṣàkàwé ìtumọ̀ ìtumọ̀ wa tẹ́lẹ̀.

Iṣẹ-ijogunba wa ni a ṣe pẹlu Amazon Rirọ Eiyan Service (Amazon ECS) lori AWS Fargate. A ṣe ilana data naa lẹsẹsẹ ni lilo Python. Bibẹẹkọ, nitori aini agbara sisẹ deede, a ni nigbagbogbo lati mu iwọn iṣupọ pọ si ni inaro lati ṣe atilẹyin awọn ipilẹ data nla. Fun agbegbe, 5 GB ti data pẹlu awọn iṣẹ 50 gba to awọn wakati 3 lati ṣiṣẹ. Iṣẹ yii ni tunto lati ṣe iwọn petele si awọn iṣẹlẹ ECS marun ti o gba awọn ifiranṣẹ lati Iṣẹ Iṣẹ isinyi Amazon (Amazon SQS), eyiti o jẹ awọn ibeere iyipada. Apẹẹrẹ kọọkan ni tunto pẹlu awọn vCPU 4 ati 30 GB ti iranti lati gba iwọn iwọn petele. Bibẹẹkọ, a ko le faagun agbara rẹ lori iṣẹ nitori ilana naa ṣẹlẹ lẹsẹsẹ, yiyan awọn ege data lati Iṣẹ Ifipamọ Simple Amazon (Amazon S3) fun sisẹ. Fun apẹẹrẹ, iṣẹ VLOOKUP nibiti awọn faili meji yoo darapo nilo awọn faili mejeeji lati ka ni ṣoki iranti nipasẹ chunk lati gba iṣẹjade. Eyi di idiwọ fun awọn olumulo nitori wọn ni lati duro fun awọn akoko pipẹ lati ṣe ilana awọn iwe data wọn.

Gẹgẹbi apakan ti atunto faaji ati isọdọtun wa, a fẹ lati ṣaṣeyọri atẹle wọnyi:

  • Wiwa to gaju - Awọn iṣupọ processing data yẹ ki o wa ga julọ, pese awọn 9s mẹta ti wiwa (99.9%)
  • losi - Iṣẹ naa yẹ ki o mu awọn ṣiṣe 1,500 fun ọjọ kan
  • lairi - O yẹ ki o ni anfani lati ṣe ilana 100 GB ti data laarin awọn iṣẹju 30
  • Aṣamuro - Iṣupọ naa yẹ ki o ni anfani lati ṣe atilẹyin ọpọlọpọ awọn ẹru iṣẹ lọpọlọpọ, pẹlu awọn faili ti o wa lati MBs diẹ si awọn ọgọọgọrun GBs
  • Ìbéèrè concurrency - Imuse nbeere agbara lati ṣe atilẹyin o kere ju awọn iwọn 10 ti concurrency
  • Igbẹkẹle ti awọn iṣẹ ati aitasera data - Awọn iṣẹ nilo lati ṣiṣẹ ni igbẹkẹle ati nigbagbogbo lati yago fun fifọ Awọn adehun Ipele Iṣẹ (SLAs)
  • Iye owo-doko ati iwọn - O gbọdọ jẹ iwọn ti o da lori iṣẹ ṣiṣe, ṣiṣe ni iye owo-doko
  • Aabo ati ibamu - Fi fun ifamọ ti data, o gbọdọ ṣe atilẹyin iṣakoso iwọle ti o dara ati awọn imuse aabo ti o yẹ
  • monitoring - Ojutu naa gbọdọ funni ni ibojuwo opin-si-opin ti awọn iṣupọ ati awọn iṣẹ

Kí nìdí Amazon EMR

Amazon EMR jẹ ojuutu data nla awọsanma ti ile-iṣẹ ti n ṣakoso fun sisẹ data iwọn-petabyte, awọn itupalẹ ibaraenisepo, ati ẹkọ ẹrọ (ML) nipa lilo awọn ilana orisun ṣiṣi gẹgẹbi Agbejade Afun, Ile Agbon Apache, Ati Ya. Pẹlu awọn ilana wọnyi ati awọn iṣẹ akanṣe orisun-ìmọ, o le ṣe ilana data fun awọn idi atupale ati awọn iṣẹ ṣiṣe BI. Amazon EMR n jẹ ki o yipada ati gbe awọn oye nla ti data sinu ati jade ninu awọn ile itaja data AWS miiran ati awọn apoti isura data, gẹgẹbi Amazon S3 ati Amazon DynamoDB.

Anfani pataki ti Amazon EMR wa ni lilo imunadoko rẹ ti sisẹ ni afiwe pẹlu PySpark, ti ​​samisi ilọsiwaju pataki lori koodu Python itẹlera aṣa. Ọna imotuntun yii ṣe imuṣiṣẹ imuṣiṣẹ ati iwọn ti awọn iṣupọ Apache Spark, gbigba fun isọdọkan daradara lori awọn ipilẹ data nla. Awọn amayederun iširo ti a pin kaakiri kii ṣe imudara iṣẹ nikan, ṣugbọn tun ngbanilaaye sisẹ awọn data lọpọlọpọ ni awọn iyara ti a ko ri tẹlẹ. Ni ipese pẹlu awọn ile-ikawe, PySpark dẹrọ awọn iṣẹ ṣiṣe bii Excel lori Awọn dataFrames, ati abstraction ipele ti o ga julọ ti DataFrames jẹ ki o rọrun awọn ifọwọyi data intricate, idinku idiju koodu. Ni idapọ pẹlu ipese iṣupọ alaifọwọyi, ipinfunni awọn orisun agbara, ati isọpọ pẹlu awọn iṣẹ AWS miiran, Amazon EMR jẹri lati jẹ ojutu ti o wapọ ti o dara fun awọn ẹru iṣẹ lọpọlọpọ, ti o wa lati sisẹ ipele si ML. Ifarada aiṣedeede ti o wa ni PySpark ati Amazon EMR ṣe igbelaruge agbara, paapaa ni iṣẹlẹ ti awọn ikuna node, ti o jẹ ki o jẹ iwọn, iye owo-doko, ati aṣayan iṣẹ-giga fun sisẹ data ti o jọra lori AWS.

Amazon EMR fa awọn agbara rẹ kọja awọn ipilẹ, nfunni ni ọpọlọpọ awọn aṣayan imuṣiṣẹ lati ṣaajo si awọn iwulo oriṣiriṣi. Boya o jẹ Amazon EMR lori EC2, Amazon EMR lori EKS, Amazon EMR Serverless, tabi Amazon EMR lori AWS Outposts, o le ṣe deede ọna rẹ si awọn ibeere kan pato. Fun awọn ti n wa agbegbe ti ko ni olupin fun awọn iṣẹ Spark, ṣepọ AWS lẹ pọ jẹ tun kan le yanju aṣayan. Ni afikun si atilẹyin ọpọlọpọ awọn ilana orisun-ìmọ, pẹlu Spark, Amazon EMR n pese irọrun ni yiyan awọn ipo imuṣiṣẹ, Awọsanma Rirọ Oniṣiro Amazon (Amazon EC2) awọn iru apẹẹrẹ, awọn ọna iwọn, ati ọpọlọpọ awọn ilana imudara iye owo fifipamọ.

Amazon EMR duro bi agbara ti o ni agbara ninu awọsanma, jiṣẹ awọn agbara ti ko ni ibamu fun awọn ajo ti n wa awọn solusan data nla to lagbara. Isopọpọ ailopin rẹ, awọn ẹya ti o lagbara, ati isọdọtun jẹ ki o jẹ ohun elo ti ko ṣe pataki fun lilọ kiri awọn idiju ti awọn atupale data ati ML lori AWS.

Atunse faaji

Àwòrán ìsàlẹ̀ yìí ṣàkàwé iṣẹ́ àtúnṣe wa.

Ojutu naa n ṣiṣẹ labẹ iwe adehun API kan, nibiti awọn alabara le fi awọn atunto iyipada silẹ, asọye eto awọn iṣẹ ṣiṣe lẹgbẹẹ ipo dataset S3 fun sisẹ. Ibeere naa wa ni ila nipasẹ Amazon SQS, lẹhinna dari si Amazon EMR nipasẹ iṣẹ Lambda kan. Ilana yii bẹrẹ ẹda ti igbesẹ EMR Amazon kan fun imuse ilana Spark lori iṣupọ EMR ti a ti sọtọ. Botilẹjẹpe Amazon EMR n gba nọmba ailopin ti awọn igbesẹ lori igbesi aye iṣupọ gigun kan, awọn igbesẹ 256 nikan le ṣiṣẹ tabi ni isunmọ ni nigbakannaa. Fun isọdọkan ti o dara julọ, a ṣeto concurrency igbese ni 10, gbigba awọn igbesẹ mẹwa 10 lati ṣiṣẹ ni akoko kanna. Ni ọran ti awọn ikuna ibeere, Amazon SQS okú-lẹta isinyi (DLQ) ṣe idaduro iṣẹlẹ naa. Spark ṣe ilana ibeere naa, titumọ awọn iṣẹ ṣiṣe bii Excel sinu koodu PySpark fun ero ibeere ti o munadoko. Resilient DataFrames itaja igbewọle, o wu, ati agbedemeji data ni-iranti, iṣapeye iyara processing, atehinwa iye owo I/O disk, imudara iṣẹ ṣiṣe, ati jišẹ ik o wu si awọn pàtó kan Amazon S3 ipo.

A ṣalaye SLA wa ni awọn iwọn meji: lairi ati iṣelọpọ. Lairi jẹ asọye bi iye akoko ti o gba lati ṣe iṣẹ kan lodi si iwọn idasile data ipinnu ati nọmba awọn iṣẹ ṣiṣe lori dataset. Itumọ gbigbe ni asọye bi nọmba ti o pọ julọ ti awọn iṣẹ nigbakanna iṣẹ naa le ṣe laisi irufin SLA lairi ti iṣẹ kan. SLA irẹjẹ gbogbogbo ti iṣẹ naa da lori iwọntunwọnsi ti iwọn petele ti awọn orisun iṣiro rirọ ati iwọn inaro ti awọn olupin kọọkan.

Nitoripe a ni lati ṣiṣẹ awọn ilana 1,500 fun ọjọ kan pẹlu lairi kekere ati iṣẹ giga, a yan lati ṣepọ Amazon EMR lori ipo imuṣiṣẹ EC2 pẹlu irẹwẹsi iṣakoso ti o ṣiṣẹ lati ṣe atilẹyin awọn iwọn awọn faili iyipada iyipada.

Iṣeto iṣupọ EMR n pese ọpọlọpọ awọn yiyan oriṣiriṣi:

  • EMR ipade orisi - Akọbẹrẹ, koko, tabi awọn apa iṣẹ-ṣiṣe
  • Awọn aṣayan rira apẹẹrẹ - Awọn ipo Ibeere, Awọn apẹẹrẹ Ipamọ, tabi Awọn aaye Aami
  • Awọn aṣayan iṣeto ni - EMR apẹẹrẹ ọkọ oju-omi kekere tabi ẹgbẹ apẹẹrẹ aṣọ
  • Awọn aṣayan iwọn - Iwontunwosi Aifọwọyi tabi Amazon EMR isakoso igbelosoke

Da lori iṣẹ ṣiṣe oniyipada wa, a tunto ọkọ oju-omi titobi EMR kan (fun awọn iṣe ti o dara julọ, wo dede). A tun pinnu lati lo Amazon EMR iṣakoso iwọn iwọn lati ṣe iwọn mojuto ati awọn apa iṣẹ (fun awọn oju iṣẹlẹ iwọn, tọka si Awọn oju iṣẹlẹ ipin ipade). Nikẹhin, a yan iṣapeye iranti Aws Graviton instances, eyi ti o pese soke si 30% idiyele kekere ati to 15% ilọsiwaju iṣẹ fun awọn iṣẹ ṣiṣe Spark.

Awọn koodu atẹle n pese aworan aworan ti iṣeto iṣupọ wa:

Concurrent steps:10

EMR Managed Scaling:
minimumCapacityUnits: 64
maximumCapacityUnits: 512
maximumOnDemandCapacityUnits: 512
maximumCoreCapacityUnits: 512

Master Instance Fleet:
r6g.xlarge
- 4 vCore, 30.5 GiB memory, EBS only storage
- EBS Storage:250 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 1 units
r6g.2xlarge
- 8 vCore, 61 GiB memory, EBS only storage
- EBS Storage:250 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 1 units

Core Instance Fleet:
r6g.2xlarge
- 8 vCore, 61 GiB memory, EBS only storage
- EBS Storage:100 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 8 units
r6g.4xlarge
- 16 vCore, 122 GiB memory, EBS only storage
- EBS Storage:100 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 16 units

Task Instances:
r6g.2xlarge
- 8 vCore, 61 GiB memory, EBS only storage
- EBS Storage:100 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 8 units
r6g.4xlarge
- 16 vCore, 122 GiB memory, EBS only storage
- EBS Storage:100 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 16 units

Performance

Pẹlu ijira wa si Amazon EMR, a ni anfani lati ṣaṣeyọri iṣẹ ṣiṣe eto ti o lagbara lati mu ọpọlọpọ awọn iwe data, ti o wa lati kekere bi 273 B si giga bi 88.5 GB pẹlu kan p99 ti 491 aaya (iwọn iṣẹju 8).

Nọmba ti o tẹle n ṣapejuwe ọpọlọpọ awọn titobi faili ti a ṣe ilana.

Nọmba ti o tẹle yii ṣe afihan aipe wa.

Lati ṣe afiwe si sisẹ ilana-tẹle, a mu awọn iwe data meji ti o ni awọn igbasilẹ miliọnu 53 ati ṣiṣe iṣẹ VLOOKUP kan si ara wa, pẹlu awọn iṣẹ bii 49 miiran ti Excel. Eyi gba awọn iṣẹju 26 lati ṣe ilana ni iṣẹ tuntun, ni akawe si awọn ọjọ 5 lati ṣe ilana ni iṣẹ-ijoba. Ilọsiwaju yii fẹrẹ to awọn akoko 300 tobi ju faaji iṣaaju lọ ni awọn ofin ti iṣẹ.

riro

Pa awọn wọnyi ni lokan nigbati o ba gbero ojutu yii:

  • Awọn iṣupọ ti iwọn-ọtun – Botilẹjẹpe Amazon EMR jẹ iwọntunwọnsi, o ṣe pataki lati ni iwọn-ọtun awọn iṣupọ. Iwọn-ọtun ṣe idinku iṣupọ ti o lọra, ti ko ba ni iwọn, tabi awọn idiyele ti o ga julọ, ti iṣupọ naa ba tobijulo. Lati ṣe ifojusọna awọn ọran wọnyi, o le ṣe iṣiro nọmba ati iru awọn apa ti yoo nilo fun awọn ẹru iṣẹ.
  • Awọn igbesẹ ti o jọra - Ṣiṣe awọn igbesẹ ni afiwe gba ọ laaye lati ṣiṣe awọn iṣẹ ṣiṣe ilọsiwaju diẹ sii, mu lilo awọn orisun iṣupọ pọ, ati dinku iye akoko ti o gba lati pari iṣẹ iṣẹ rẹ. Nọmba awọn igbesẹ ti o gba laaye lati ṣiṣẹ ni akoko kan jẹ atunto ati pe o le ṣeto nigbati iṣupọ kan ti ṣe ifilọlẹ ati nigbakugba lẹhin iṣupọ ti bẹrẹ. O nilo lati ronu ati mu iwọn lilo Sipiyu/iranti pọ si fun iṣẹ kan nigbati ọpọlọpọ awọn iṣẹ n ṣiṣẹ ni iṣupọ pinpin kan.
  • Awọn iṣupọ EMR igba diẹ ti o da lori iṣẹ - Ti o ba wulo, o gba ọ niyanju lati lo iṣupọ EMR igba diẹ ti o da lori iṣẹ, eyiti o funni ni ipinya ti o ga julọ, ni idaniloju pe iṣẹ-ṣiṣe kọọkan n ṣiṣẹ laarin agbegbe iyasọtọ rẹ. Ọna yii ṣe iṣamulo lilo awọn orisun, ṣe iranlọwọ lati yago fun kikọlu laarin awọn iṣẹ, ati mu iṣẹ ṣiṣe ati igbẹkẹle pọ si. Iseda igba diẹ ngbanilaaye igbelowọn daradara, pese ojutu to lagbara ati ipinya fun awọn iwulo ṣiṣiṣẹ data oniruuru.
  • EMR Serverless – EMR Serverless jẹ yiyan ti o dara julọ ti o ba fẹ lati ma ṣakoso iṣakoso ati iṣẹ ti awọn iṣupọ. O gba ọ laaye lati ṣiṣẹ awọn ohun elo lainidii nipa lilo awọn ilana orisun-ìmọ ti o wa laarin EMR Serverless, nfunni ni taara ati iriri ti ko ni wahala.
  • Amazon EMR lori EKS - Amazon EMR lori EKS nfunni ni awọn anfani ọtọtọ, gẹgẹbi awọn akoko ibẹrẹ yiyara ati ilọsiwaju iwọntunwọnsi awọn italaya agbara iṣiro-eyiti o jẹ anfani ni pataki fun awọn olumulo Graviton ati Spot Instance. Ifisi ti iwọn gbooro ti awọn oriṣi iṣiro ṣe imudara iye owo-ṣiṣe, ngbanilaaye ipin awọn orisun ti o baamu. Pẹlupẹlu, atilẹyin Multi-AZ n pese wiwa pọ si. Awọn ẹya ọranyan wọnyi n pese ojutu to lagbara fun ṣiṣakoso awọn iṣẹ ṣiṣe data nla pẹlu iṣẹ ilọsiwaju, iṣapeye idiyele, ati igbẹkẹle kọja ọpọlọpọ awọn oju iṣẹlẹ iṣiro.

ipari

Ninu ifiweranṣẹ yii, a ṣe alaye bi Amazon ṣe ṣe iṣapeye ilana isọdọtun owo ti o ga julọ pẹlu Amazon EMR fun iwọn ti o ga julọ ati iṣẹ ṣiṣe. Ti o ba ni ohun elo monolithic kan ti o da lori iwọn inaro lati ṣe ilana awọn ibeere afikun tabi awọn iwe data, lẹhinna gbigbe lọ si ilana iṣelọpọ pinpin bi Apache Spark ati yiyan iṣẹ iṣakoso bii Amazon EMR fun iṣiro le ṣe iranlọwọ lati dinku akoko asiko lati dinku ifijiṣẹ rẹ. SLA, ati pe o tun le ṣe iranlọwọ lati dinku Lapapọ Iye Ohun-ini (TCO).

Bi a ṣe gba Amazon EMR fun ọran lilo pato yii, a gba ọ niyanju lati ṣawari awọn aye siwaju sii ninu irin-ajo imotuntun data rẹ. Gbiyanju lati ṣe iṣiro AWS Glue, pẹlu awọn aṣayan imuṣiṣẹ Amazon EMR miiran ti o ni agbara gẹgẹbi EMR Serverless tabi Amazon EMR lori EKS, lati ṣe iwari iṣẹ AWS ti o dara julọ ti a ṣe deede si ọran lilo alailẹgbẹ rẹ. Ọjọ iwaju ti irin-ajo imotuntun data ni awọn aye iwunilori ati awọn ilọsiwaju lati ṣawari siwaju.


Nipa awọn onkọwe

Jeeshan Khetrapal jẹ Onimọ-ẹrọ Idagbasoke sọfitiwia Sr. ni Amazon, nibiti o ti n ṣe agbekalẹ awọn ọja fintech ti o da lori awọn ile-iṣẹ iṣelọpọ ti ko ni iširo awọsanma ti o jẹ iduro fun awọn iṣakoso gbogbogbo IT ti awọn ile-iṣẹ, ijabọ owo, ati iṣakoso iṣakoso fun iṣakoso, eewu, ati ibamu.

Sakti Mishra jẹ Onitumọ Awọn Solusan Alakoso ni AWS, nibiti o ti ṣe iranlọwọ fun awọn alabara lati ṣe imudojuiwọn ilana faaji data wọn ati ṣalaye ilana data ipari-si-opin wọn, pẹlu aabo data, iraye si, iṣakoso, ati diẹ sii. Òun náà ni òǹkọ̀wé ìwé náà Dirọrun Awọn atupale Data Nla pẹlu Amazon EMR. Ni ita iṣẹ, Sakti gbadun kikọ awọn imọ-ẹrọ tuntun, wiwo awọn fiimu, ati awọn ibi abẹwo si pẹlu ẹbi.

iranran_img

Titun oye

iranran_img