Zephyrnet-logo

Introductie van Amazon MWAA grotere omgevingsgroottes | Amazon-webservices

Datum:

Door Amazon beheerde workflows voor Apache Airflow (Amazon MWAA) is een beheerde service voor Apache-luchtstroom dat de opzet en werking van de infrastructuur stroomlijnt om datapijplijnen in de cloud te orkestreren. Klanten gebruiken Amazon MWAA om de schaalbaarheid, beschikbaarheid en veiligheid van hun Apache Airflow-omgevingen te beheren. Terwijl ze intensievere, complexere en steeds groter wordende pijplijnen voor gegevensverwerking ontwerpen, hebben klanten ons om aanvullende onderliggende bronnen gevraagd om meer gelijktijdigheid en capaciteit voor hun taken en workflows te bieden.

Om dit aan te pakken kondigen we vandaag de beschikbaarheid aan van grotere omgevingsklassen in Amazon MWAA. In dit bericht duiken we in de mogelijkheden van deze nieuwe XL- en 2XL-omgevingen, de scenario's waarvoor ze zeer geschikt zijn, en hoe u uw bestaande Amazon MWAA-omgeving kunt opzetten of upgraden om te profiteren van de toegenomen bronnen.

Huidige uitdagingen

Wanneer u een Amazon MWAA-omgeving maakt, wordt een set beheerde Amazon Elastic Container-service (Amazon ECS) met AWS Fargate containers zijn voorzien van gedefinieerde virtuele CPU's en RAM.

Terwijl u werkt met grotere, complexe, resource-intensieve workloads, of er duizenden uitvoert Gerichte acyclische grafieken (DAG's) per dag, kunt u beginnen met het uitputten van de CPU-beschikbaarheid op planners en werkrollen, of het bereiken van geheugenlimieten in werkrollen. Het op grote schaal uitvoeren van Apache Airflow zorgt voor een proportioneel grotere belasting van de Airflow-metagegevensdatabase, wat soms kan leiden tot CPU- en geheugenproblemen op de onderliggende database. Amazon relationele databaseservice (Amazon RDS)-cluster. Een metagegevensdatabase die weinig middelen heeft, kan leiden tot verbroken verbindingen van uw werknemers, waardoor taken voortijdig mislukken.

Overweeg het volgende om de prestaties en veerkracht van uw taken te verbeteren Best practices voor Apache Airflow om DAG's te schrijven. Als alternatief kunt u meerdere Amazon MWAA-omgevingen creëren om de werklast te verdelen. Dit vergt echter extra engineering- en managementinspanningen.

Nieuwe milieuklassen

Met de release van vandaag kun je nu XL- en 2XL-omgevingen maken in Amazon MWAA naast de bestaande omgevingsklassen. Ze hebben respectievelijk twee en vier keer zoveel rekenkracht en drie en zes keer zoveel geheugen als de huidige grote Amazon MWAA-omgevingsinstantieklasse. Deze instanties voegen rekenkracht en RAM lineair toe om de capaciteit en prestaties van alle Apache Airflow-componenten direct te verbeteren. De volgende tabel geeft een overzicht van de omgeving mogelijkheden.

. Planner en werknemer CPU / RAM

web Server

CPU/RAM

Gelijktijdige taken DAG-capaciteit
mw1.xgroot 8 vCPU's / 24 GB 4 vCPU's / 12 GB 40 taken (standaard) Tot 2000
mw1.2xgroot 16 vCPU's / 48 GB 8 vCPU's / 24 GB 80 taken (standaard) Tot 4000

Met de introductie van deze grotere omgevingen zal uw Amazon Aurora-metagegevensdatabase nu gebruik maken van grotere, voor geheugen geoptimaliseerde instanties die worden aangedreven door AWS Graviton2. Met de Graviton2-processorfamilie krijgt u reken-, opslag- en netwerkverbeteringen, en de reductie van uw ecologische voetafdruk aangeboden door de AWS-processorfamilie.

Prijzen

De Amazon MWAA-prijsdimensies blijven ongewijzigd en u betaalt alleen voor wat u gebruikt:

  • De milieuklasse
  • Extra werkrolinstanties
  • Extra planner-instanties
  • Opslag van metadatadatabase verbruikt

U krijgt nu twee extra opties in de eerste drie dimensies: XL en 2XL voor omgevingsklassen, extra werkers en planners. De prijzen voor opslag van metadatadatabases blijven hetzelfde. Verwijzen naar Door Amazon beheerde workflows voor Apache Airflow-prijzen voor tarieven en meer details.

Observeer de MWAA-prestaties van Amazon om schaalvergroting naar grotere omgevingen te plannen

Voordat u de nieuwe omgevingsklassen gaat gebruiken, is het belangrijk om te weten of u zich in een scenario bevindt dat verband houdt met capaciteitsproblemen, zoals een onvoldoende geheugen in de metagegevensdatabase, of werknemers of planners die een hoog CPU-gebruik gebruiken. Inzicht in de prestaties van uw omgevingsbronnen is essentieel voor het oplossen van capaciteitsproblemen. Wij raden u aan de richtlijnen te volgen die worden beschreven in Introductie van container-, database- en wachtrijgebruiksstatistieken voor de Amazon MWAA-omgeving om de status van Amazon MWAA-omgevingen beter te begrijpen en inzichten te krijgen om uw instances op de juiste maat te maken.

In de volgende test simuleren we een scenario met hoge belasting, gebruik de Observatiestatistieken van CloudWatch om gemeenschappelijke problemen te identificeren en een weloverwogen beslissing te nemen om opschaling naar grotere omgevingen te plannen om de problemen te beperken.

Tijdens onze tests hebben we een complexe DAG uitgevoerd die dynamisch meer dan 500 taken creëert en externe sensoren gebruikt om te wachten op de voltooiing van een taak in een andere DAG. Na het draaien op een Amazon MWAA grote omgevingsklasse met automatische schaling ingesteld op maximaal 10 werkknooppunten, hebben we de volgende statistieken en waarden opgemerkt in de CloudWatch-dashboard.

De werkknooppunten hebben de maximale CPU-capaciteit bereikt, waardoor het aantal taken in de wachtrij blijft toenemen. Het CPU-gebruik van de metadatadatabase heeft een piek bereikt van meer dan 65%, en het beschikbare vrije databasegeheugen is verminderd. In deze situatie zouden we de werkknooppunten verder kunnen vergroten om te schalen, maar dat zou de CPU van de metagegevensdatabase extra belasten. Dit kan leiden tot een afname van het aantal werknemersdatabaseverbindingen en het beschikbare vrije databasegeheugen.

Met nieuwe omgevingsklassen kunt u verticaal schalen om de beschikbare bronnen te vergroten door de omgeving te bewerken en een hogere omgevingsklasse te selecteren, zoals weergegeven in de volgende schermafbeelding.

Uit de lijst met omgevingen selecteren we degene die voor deze test wordt gebruikt. Kiezen Edit om te navigeren naar de Geavanceerde instellingen configureren pagina en selecteer indien nodig de juiste xlarge- of 2xlarge-omgeving.

Nadat u de wijziging heeft opgeslagen, duurt het 20 tot 30 minuten voordat de upgrade van de omgeving is voltooid. Voor elke actieve DAG die tijdens de upgrade werd onderbroken, wordt een nieuwe poging gepland, afhankelijk van de manier waarop u de nieuwe pogingen voor uw DAG's hebt geconfigureerd. U kunt er nu voor kiezen om ze handmatig aan te roepen of te wachten op de volgende geplande uitvoering.

Nadat we de omgevingsklasse hadden geüpgraded, hebben we dezelfde DAG getest en vastgesteld dat de statistieken verbeterde waarden lieten zien omdat er nu meer bronnen beschikbaar zijn. Met deze XL-omgeving kunt u meer taken uitvoeren op minder werkknooppunten, waardoor het aantal taken in de wachtrij steeds verder afneemt. Als u taken heeft die meer geheugen en/of CPU vereisen, kunt u ook het aantal taken per werknemer verminderen, maar toch een groot aantal taken per werknemer bereiken met een grotere omgevingsgrootte. Als u bijvoorbeeld een grote omgeving heeft waarin de CPU van het werkknooppunt maximaal wordt benut celery.worker_autoscale (de Airflow-configuratie die het aantal taken per medewerker definieert) Ingesteld op 20,20, kunt u uitbreiden naar een XL-omgeving en instellen celery.worker_autoscale tot 20,20 op de XL, in plaats van de standaard 40 taken per werknemer in een XL-omgeving, en de CPU-belasting zou aanzienlijk moeten verminderen.

Zet een nieuwe XL-omgeving op in Amazon MWAA

Je kunt ga aan de slag met Amazon MWAA in uw account en gewenste AWS-regio met behulp van de AWS-beheerconsole, API, of AWS-opdrachtregelinterface (AWS CLI). Als u infrastructuur als code (IaC) gebruikt, kunt u de installatie automatiseren met behulp van AWS CloudFormatie AWS Cloud-ontwikkelingskit (AWS CDK) of Terraform-scripts.

Amazon MWAA XL- en 2XL-omgevingsklassen zijn vandaag beschikbaar in alle regio's waar Amazon MWAA momenteel beschikbaar is.

Conclusie

Vandaag kondigen we de beschikbaarheid aan van twee nieuwe omgevingsklassen in Amazon MWAA. Met XL- en 2XL-omgevingsklassen kunt u grotere hoeveelheden complexe of resource-intensieve workflows orkestreren. Als u DAG's uitvoert met een groot aantal afhankelijkheden, duizenden DAG's in meerdere omgevingen uitvoert, of in een scenario waarin u zwaar werknemers moet gebruiken voor rekenkracht, kunt u nu de gerelateerde capaciteitsproblemen overwinnen door uw omgevingsmiddelen in een paar minuten te vergroten. duidelijke stappen.

In dit bericht hebben we de mogelijkheden van de twee nieuwe omgevingsklassen besproken, inclusief prijzen en enkele veelvoorkomende problemen met resourcebeperkingen die ze oplossen. We hebben richtlijnen en een voorbeeld gegeven van hoe u uw bestaande omgevingen kunt observeren om de schaal naar XL of 2XL te plannen, en we hebben beschreven hoe u bestaande omgevingen kunt upgraden om de grotere bronnen te gebruiken.

Ga voor meer informatie en codevoorbeelden op Amazon MWAA naar de Amazon MWAA-gebruikershandleiding en Amazon MWAA-voorbeelden GitHub-repo.

Apache, Apache Airflow en Airflow zijn gedeponeerde handelsmerken of handelsmerken van de Apache Software Foundation in de Verenigde Staten en/of andere landen.


Over de auteurs

Hernán Garcia is een Senior Solutions Architect bij AWS gevestigd in Nederland. Hij werkt in de financiële dienstverlening en ondersteunt bedrijven bij hun adoptie van de cloud. Hij heeft een passie voor serverloze technologieën, beveiliging en compliance. Hij brengt graag tijd door met familie en vrienden en probeert graag nieuwe gerechten uit verschillende keukens.

Jeetendra Vaidya is een Senior Solutions Architect bij AWS en brengt zijn expertise in op het gebied van AI/ML, serverless en data-analysedomeinen. Hij heeft een passie voor het helpen van klanten bij het ontwerpen van veilige, schaalbare, betrouwbare en kosteneffectieve oplossingen.

Sriharsh Adari is een Senior Solutions Architect bij AWS, waar hij klanten helpt vanuit bedrijfsresultaten achteruit te werken om innovatieve oplossingen op AWS te ontwikkelen. In de loop der jaren heeft hij meerdere klanten geholpen bij dataplatformtransformaties in verticale sectoren. Zijn kerngebied van expertise omvat technologiestrategie, data-analyse en datawetenschap. In zijn vrije tijd houdt hij van sporten, tv-programma's kijken en Tabla spelen.

spot_img

VC Café

VC Café

Laatste intelligentie

spot_img