Logotip Zephyrnet

Predstavljamo večje velikosti okolja Amazon MWAA | Spletne storitve Amazon

Datum:

Delovni tokovi, ki jih upravlja Amazon za Apache Airflow (Amazon MWAA) je upravljana storitev za pretok zraka apache ki poenostavi nastavitev in delovanje infrastrukture za orkestriranje podatkovnih cevovodov v oblaku. Stranke uporabljajo Amazon MWAA za upravljanje razširljivosti, razpoložljivosti in varnosti svojih okolij Apache Airflow. Ko načrtujejo intenzivnejše, zapletenejše in vedno rastoče cevovode za obdelavo podatkov, so nas stranke prosile za dodatne osnovne vire, da bi zagotovili večjo sočasnost in zmogljivost za njihove naloge in poteke dela.

Da bi to rešili, danes objavljamo razpoložljivost večjih razredov okolja v Amazon MWAA. V tej objavi se poglobimo v zmogljivosti teh novih okolij XL in 2XL, scenarije, za katere so zelo primerna, in kako lahko nastavite ali nadgradite svoje obstoječe okolje Amazon MWAA, da izkoristite povečana sredstva.

Trenutni izzivi

Ko ustvarite okolje Amazon MWAA, niz upravljanih Amazonska storitev za kontejnerje z elastiko (Amazon ECS) z AWS Fargate vsebniki so opremljeni z definiranimi navideznimi procesorji in RAM-om.

Ko delate z večjimi, zapletenimi delovnimi obremenitvami, ki zahtevajo veliko virov, ali izvajate na tisoče Usmerjeni aciklični grafi (DAG) na dan, lahko začnete izčrpavati razpoložljivost CPE-ja v razporejevalnikih in delavcih ali dosegati omejitve pomnilnika v delavcih. Izvajanje Apache Airflow v velikem obsegu sorazmerno bolj obremeni podatkovno bazo metapodatkov Airflow, kar včasih povzroči težave s procesorjem in pomnilnikom na osnovni Služba za relacijske baze podatkov Amazon (Amazon RDS) grozd. Zbirka metapodatkov s pomanjkanjem virov lahko povzroči prekinitev povezav vaših delavcev in prezgodnje neuspešne naloge.

Če želite izboljšati zmogljivost in odpornost svojih nalog, upoštevajte naslednje Najboljše prakse Apache Airflow avtorskim DAG-jem. Namesto tega lahko ustvarite več okolij Amazon MWAA za porazdelitev delovnih obremenitev. Vendar to zahteva dodatne inženirske in upravljavske napore.

Razredi novega okolja

Z današnjo izdajo lahko zdaj ustvarite okolja XL in 2XL v Amazon MWAA poleg obstoječih razredov okolja. Imajo dvakrat oziroma štirikrat več računanja in trikrat oziroma šestkrat več pomnilnika v primerjavi s trenutnim velikim razredom primerkov okolja Amazon MWAA. Ti primerki dodajajo računalništvo in RAM linearno za neposredno izboljšanje zmogljivosti in zmogljivosti vseh komponent Apache Airflow. Naslednja tabela povzema zmogljivosti okolja.

. Razporejevalnik in delavec CPE / RAM

spletni strežnik

CPE / RAM

Sočasne naloge Zmogljivost DAG
mw1.xlarge 8 vCPU-jev / 24 GB 4 vCPU-jev / 12 GB 40 nalog (privzeto) Do 2000
mw1.2xvelika 16 vCPU-jev / 48 GB 8 vCPU-jev / 24 GB 80 nalog (privzeto) Do 4000

Z uvedbo teh večjih okolij bo vaša zbirka metapodatkov Amazon Aurora zdaj uporabljala večje primerke, optimizirane za pomnilnik, ki jih poganja AWS Graviton2. Z družino procesorjev Graviton2 dobite izboljšave računalništva, shranjevanja in povezovanja v omrežje ter zmanjšanje vašega ogljičnega odtisa, ki ga ponuja družina procesorjev AWS.

Cenitev

Razsežnosti cen Amazon MWAA ostajajo nespremenjene in plačate samo tisto, kar uporabite:

  • Razred okolja
  • Dodatni delovni primerki
  • Dodatni primerki razporejevalnika
  • Zaseden prostor za shranjevanje v bazi podatkov metapodatkov

Zdaj dobite dve dodatni možnosti v prvih treh dimenzijah: XL in 2XL za razred okolja, dodatne delavce in primerke načrtovalcev. Cene shranjevanja baze podatkov metapodatkov ostajajo enake. Nanašati se na Amazon Managed Workflows for Apache Airflow Pricing za cene in več podrobnosti.

Opazujte zmogljivost Amazon MWAA, da načrtujete prilagajanje na večja okolja

Preden začnete uporabljati nove razrede okolja, je pomembno razumeti, ali ste v scenariju, ki se nanaša na težave z zmogljivostjo, kot je zmanjkalo pomnilnika v zbirki metapodatkov ali delavci ali načrtovalci, ki se izvajajo pri visoki obremenitvi CPE. Razumevanje zmogljivosti virov vašega okolja je ključno za odpravljanje težav, povezanih z zmogljivostjo. Priporočamo, da upoštevate navodila, opisana v Predstavljamo metrike uporabe vsebnika, baze podatkov in čakalne vrste za okolje Amazon MWAA za boljše razumevanje stanja okolij Amazon MWAA in pridobitev vpogledov za pravilno velikost vaših primerkov.

V naslednjem testu simuliramo scenarij visoke obremenitve, uporabite Meritve opazljivosti CloudWatch za prepoznavanje pogostih težav in sprejemanje premišljene odločitve za načrtovanje prilagajanja večjim okoljem za ublažitev težav.

Med našimi preizkusi smo zagnali zapleten DAG, ki dinamično ustvari več kot 500 opravil in uporablja zunanje senzorje za čakanje na dokončanje opravila v drugem DAG-u. Po izvajanju v velikem razredu okolja Amazon MWAA s samodejnim skaliranjem, nastavljenim na največ 10 delovnih vozlišč, smo opazili naslednje meritve in vrednosti v Nadzorna plošča CloudWatch.

Delavna vozlišča so dosegla največjo zmogljivost procesorja, zaradi česar se število opravil v čakalni vrsti povečuje. Izkoriščenost procesorja zbirke podatkov z metapodatki je dosegla vrh pri več kot 65-odstotni zmogljivosti, razpoložljivi prosti pomnilnik baze podatkov pa se je zmanjšal. V tej situaciji bi lahko dodatno povečali delovna vozlišča v merilu, vendar bi to dodatno obremenilo CPE baze metapodatkov. To lahko privede do zmanjšanja števila povezav delovne baze podatkov in razpoložljivega prostega pomnilnika baze podatkov.

Z novimi razredi okolja lahko navpično prilagajate, da povečate razpoložljive vire, tako da uredite okolje in izberete višji razred okolja, kot je prikazano na naslednjem posnetku zaslona.

Iz seznama okolij izberemo tisto, ki je v uporabi za ta test. Izberite Uredi za navigacijo do Konfigurirajte napredne nastavitve strani in po potrebi izberite ustrezno okolje xlarge ali 2xlarge.

Ko shranite spremembo, bo nadgradnja okolja trajala 20–30 minut. Vsak delujoč DAG, ki je bil med nadgradnjo prekinjen, je načrtovan za ponovni poskus, odvisno od načina, na katerega ste konfigurirali ponovne poskuse za svoje DAG. Zdaj se lahko odločite, da jih prikličete ročno ali počakate na naslednji načrtovani zagon.

Ko smo nadgradili razred okolja, smo preizkusili isti DAG in opazili, da meritve kažejo izboljšane vrednosti, ker je zdaj na voljo več virov. S tem okoljem XL lahko izvajate več opravil na manj delovnih vozliščih, zato se število opravil v čakalni vrsti še naprej zmanjšuje. Če imate opravila, ki zahtevajo več pomnilnika in/ali procesorja, lahko zmanjšate število opravil na delavca, vendar še vedno dosežete veliko število opravil na delavca z večjo velikostjo okolja. Na primer, če imate veliko okolje, kjer je CPE delovnega vozlišča maksimalno izkoriščen celery.worker_autoscale (konfiguracija pretoka zraka, ki določa število nalog na delavca) Nastavljeno na 20,20, lahko povečate na okolje XL in nastavite celery.worker_autoscale na 20,20 na XL, namesto privzetih 40 nalog na delavca v okolju XL in obremenitev CPU bi se morala znatno zmanjšati.

Nastavite novo okolje XL v Amazon MWAA

Ti lahko začnite uporabljati Amazon MWAA v vašem računu in želeni regiji AWS z uporabo Konzola za upravljanje AWS, API ali Vmesnik ukazne vrstice AWS (AWS CLI). Če uporabljate infrastrukturo kot kodo (IaC), lahko avtomatizirate nastavitev z uporabo Oblikovanje oblaka AWSje Komplet za razvoj oblaka AWS (AWS CDK) ali skripte Terraform.

Okoljski razredi Amazon MWAA XL in 2XL so danes na voljo v vseh regijah, kjer je Amazon MWAA trenutno na voljo.

zaključek

Danes objavljamo razpoložljivost dveh novih razredov okolja v Amazon MWAA. Z okoljskimi razredi XL in 2XL lahko organizirate večje količine zapletenih delovnih tokov ali delovnih tokov, ki zahtevajo veliko virov. Če izvajate DAG-je z velikim številom odvisnosti, izvajate na tisoče DAG-jev v več okoljih ali v scenariju, ki od vas zahteva, da za računalništvo močno uporabljate delavce, lahko zdaj premagate s tem povezane težave z zmogljivostjo tako, da povečate svoje okoljske vire v nekaj enostavni koraki.

V tej objavi smo razpravljali o zmožnostih dveh novih razredov okolja, vključno s cenami in nekaterimi pogostimi težavami z omejitvami virov, ki jih rešujejo. Zagotovili smo smernice in primer, kako opazovati vaša obstoječa okolja za načrtovanje prilagajanja na XL ali 2XL, in opisali smo, kako lahko nadgradite obstoječa okolja za uporabo povečanih virov.

Za dodatne podrobnosti in primere kode na Amazon MWAA obiščite Uporabniški priročnik za Amazon MWAA in Amazon MWAA primeri GitHub repo.

Apache, Apache Airflow in Airflow so registrirane blagovne znamke ali blagovne znamke družbe Apache Software Foundation v ZDA in / ali drugih državah.


O avtorjih

Hernan Garcia je višji arhitekt rešitev pri AWS s sedežem na Nizozemskem. Deluje v industriji finančnih storitev in podpira podjetja pri njihovem sprejemanju oblakov. Navdušen je nad tehnologijami brez strežnikov, varnostjo in skladnostjo. Rad preživlja čas z družino in prijatelji ter preizkuša nove jedi različnih kuhinj.

Jeetendra Vaidya je višji arhitekt rešitev pri AWS, ki svoje strokovno znanje prenaša na področja AI/ML, brezstrežniške in podatkovne analitike. Strastno želi pomagati strankam pri arhitekturi varnih, razširljivih, zanesljivih in stroškovno učinkovitih rešitev.

Sriharsh Adari je višji arhitekt rešitev pri AWS, kjer strankam pomaga pri delu nazaj od poslovnih rezultatov za razvoj inovativnih rešitev na AWS. V preteklih letih je pomagal številnim strankam pri transformacijah podatkovne platforme v različnih industrijskih vertikalah. Njegovo osrednje strokovno področje vključuje tehnološko strategijo, podatkovno analitiko in podatkovno znanost. V prostem času se rad ukvarja s športom, gleda TV oddaje in igra tablo.

spot_img

Najnovejša inteligenca

spot_img