Logo Zephyrnet

Memperkenalkan Amazon MWAA dengan ukuran lingkungan yang lebih besar | Layanan Web Amazon

Tanggal:

Alur Kerja Terkelola Amazon untuk Apache Airflow (Amazon MWAA) adalah layanan terkelola untuk Aliran Udara Apache yang menyederhanakan penyiapan dan pengoperasian infrastruktur untuk mengatur jalur data di cloud. Pelanggan menggunakan Amazon MWAA untuk mengelola skalabilitas, ketersediaan, dan keamanan lingkungan Apache Airflow mereka. Saat mereka merancang jalur pemrosesan data yang lebih intensif, kompleks, dan terus berkembang, pelanggan meminta sumber daya dasar tambahan kepada kami untuk menyediakan konkurensi dan kapasitas yang lebih besar untuk tugas dan alur kerja mereka.

Untuk mengatasi hal ini, hari ini, kami mengumumkan ketersediaan kelas lingkungan yang lebih besar di Amazon MWAA. Dalam postingan ini, kami menyelami kemampuan lingkungan XL dan 2XL baru ini, skenario yang cocok untuk lingkungan tersebut, dan bagaimana Anda dapat mengatur atau meningkatkan lingkungan Amazon MWAA yang ada untuk memanfaatkan peningkatan sumber daya.

Tantangan saat ini

Saat Anda membuat lingkungan Amazon MWAA, satu set lingkungan terkelola Layanan Kontainer Amazon Elastic (Amazon ECS) dengan Fargate AWS kontainer disediakan dengan CPU dan RAM virtual yang ditentukan.

Saat Anda bekerja dengan beban kerja yang lebih besar, kompleks, dan intensif sumber daya, atau menjalankan ribuan Grafik Acyclic Berarah (DAG) per hari, Anda mungkin mulai menghabiskan ketersediaan CPU pada penjadwal dan pekerja, atau mencapai batas memori pada pekerja. Menjalankan Apache Airflow dalam skala besar memberikan beban yang lebih besar secara proporsional pada database metadata Airflow, terkadang menyebabkan masalah CPU dan memori pada dasarnya Layanan Database Relasional Amazon (Amazon RDS). Basis data metadata yang kekurangan sumber daya dapat menyebabkan terputusnya koneksi dari pekerja Anda, sehingga tugas gagal sebelum waktunya.

Untuk meningkatkan kinerja dan ketahanan tugas Anda, pertimbangkan hal berikut Praktik terbaik Apache Airflow untuk menulis DAG. Sebagai alternatif, Anda dapat membuat beberapa lingkungan Amazon MWAA untuk mendistribusikan beban kerja. Namun, hal ini memerlukan upaya rekayasa dan manajemen tambahan.

Kelas lingkungan baru

Dengan rilis hari ini, Anda kini dapat membuat lingkungan XL dan 2XL di Amazon MWAA selain kelas lingkungan yang sudah ada. Mereka memiliki komputasi dua dan empat kali lipat, serta memori tiga dan enam kali lipat, masing-masing, dibandingkan kelas instans lingkungan Amazon MWAA yang besar saat ini. Instans ini menambahkan komputasi dan RAM secara linier untuk secara langsung meningkatkan kapasitas dan kinerja semua komponen Apache Airflow. Tabel berikut merangkumnya kemampuan lingkungan.

. Penjadwal dan Pekerja CPU/RAM

web Server

CPU/RAM

Tugas Bersamaan Kapasitas DAG
mw1.xlarge 8 vCPU / 24 GB 4 vCPU / 12 GB 40 tugas (default) Sampai 2000
mw1.2xbesar 16 vCPU / 48 GB 8 vCPU / 24 GB 80 tugas (default) Sampai 4000

Dengan diperkenalkannya lingkungan yang lebih besar ini, basis data metadata Amazon Aurora Anda kini akan menggunakan instans yang lebih besar dan memorinya dioptimalkan yang didukung oleh AWS Graviton2. Dengan rangkaian prosesor Graviton2, Anda mendapatkan peningkatan komputasi, penyimpanan, dan jaringan, serta pengurangan jejak karbon yang ditawarkan oleh rangkaian prosesor AWS.

Harga

Dimensi harga Amazon MWAA tetap tidak berubah, dan Anda hanya membayar sesuai penggunaan:

  • Kelas lingkungan
  • Contoh pekerja tambahan
  • Contoh penjadwal tambahan
  • Penyimpanan basis data metadata dikonsumsi

Anda kini mendapatkan dua opsi tambahan dalam tiga dimensi pertama: XL dan 2XL untuk kelas lingkungan, pekerja tambahan, dan instans penjadwal. Harga penyimpanan database metadata tetap sama. Mengacu pada Alur Kerja Terkelola Amazon untuk Harga Apache Airflow untuk tarif dan rincian lebih lanjut.

Amati kinerja Amazon MWAA untuk merencanakan penskalaan ke lingkungan yang lebih besar

Sebelum Anda mulai menggunakan kelas lingkungan baru, penting untuk memahami apakah Anda berada dalam skenario yang berkaitan dengan masalah kapasitas, seperti database metadata kehabisan memori, atau pekerja atau penjadwal berjalan pada penggunaan CPU yang tinggi. Memahami kinerja sumber daya lingkungan Anda adalah kunci untuk memecahkan masalah terkait kapasitas. Kami merekomendasikan untuk mengikuti panduan yang dijelaskan dalam Memperkenalkan metrik pemanfaatan kontainer, database, dan antrean untuk lingkungan Amazon MWAA untuk lebih memahami keadaan lingkungan Amazon MWAA, dan mendapatkan wawasan untuk menyesuaikan ukuran instans Anda.

Dalam pengujian berikut, kami mensimulasikan skenario beban tinggi, menggunakan Metrik observasi CloudWatch untuk mengidentifikasi masalah umum, dan membuat keputusan yang tepat untuk merencanakan perluasan ke lingkungan yang lebih besar guna memitigasi masalah tersebut.

Selama pengujian, kami menjalankan DAG kompleks yang secara dinamis membuat lebih dari 500 tugas dan menggunakan sensor eksternal untuk menunggu penyelesaian tugas di DAG berbeda. Setelah berjalan di kelas lingkungan besar Amazon MWAA dengan penskalaan otomatis yang diatur hingga maksimum 10 node pekerja, kami melihat metrik dan nilai berikut di Dasbor CloudWatch.

Node pekerja telah mencapai kapasitas CPU maksimum, menyebabkan jumlah tugas yang diantri terus meningkat. Pemanfaatan CPU database metadata telah mencapai puncaknya pada kapasitas lebih dari 65%, dan memori bebas database yang tersedia telah berkurang. Dalam situasi ini, kami dapat meningkatkan skala node pekerja lebih lanjut, namun hal ini akan memberikan beban tambahan pada CPU database metadata. Hal ini mungkin menyebabkan penurunan jumlah koneksi database pekerja dan memori database bebas yang tersedia.

Dengan kelas lingkungan baru, Anda dapat menskalakan secara vertikal untuk meningkatkan sumber daya yang tersedia dengan mengedit lingkungan dan memilih kelas lingkungan yang lebih tinggi, seperti yang ditunjukkan pada cuplikan layar berikut.

Dari daftar lingkungan, kami memilih salah satu yang digunakan untuk pengujian ini. Memilih Edit untuk menavigasi ke Konfigurasikan pengaturan lanjutan halaman, dan pilih lingkungan xlarge atau 2xlarge yang sesuai sesuai kebutuhan.

Setelah Anda menyimpan perubahan, pemutakhiran lingkungan akan memerlukan waktu 20–30 menit untuk diselesaikan. DAG apa pun yang sedang berjalan dan terganggu selama peningkatan versi dijadwalkan untuk percobaan ulang, bergantung pada cara Anda mengonfigurasi percobaan ulang untuk DAG Anda. Anda sekarang dapat memilih untuk menjalankannya secara manual atau menunggu jadwal berjalan berikutnya.

Setelah kami meningkatkan kelas lingkungan, kami menguji DAG yang sama dan mengamati bahwa metrik menunjukkan nilai yang lebih baik karena kini lebih banyak sumber daya yang tersedia. Dengan lingkungan XL ini, Anda dapat menjalankan lebih banyak tugas pada node pekerja yang lebih sedikit, sehingga jumlah tugas yang diantrekan terus berkurang. Sebagai alternatif, jika Anda memiliki tugas yang memerlukan lebih banyak memori dan/atau CPU, Anda dapat mengurangi tugas per pekerja, namun tetap mencapai jumlah tugas per pekerja yang tinggi dengan ukuran lingkungan yang lebih besar. Misalnya, jika Anda memiliki lingkungan besar di mana CPU node pekerja sudah maksimal celery.worker_autoscale (konfigurasi Aliran Udara yang menentukan jumlah tugas per pekerja) Ditetapkan pada 20,20, Anda dapat meningkatkan ke lingkungan XL dan mengatur celery.worker_autoscale menjadi 20,20 di XL, dibandingkan dengan 40 tugas default per pekerja di lingkungan XL dan beban CPU akan berkurang secara signifikan.

Siapkan lingkungan XL baru di Amazon MWAA

Anda dapat memulai dengan Amazon MWAA di akun Anda dan Wilayah AWS pilihan menggunakan Konsol Manajemen AWS, API, atau Antarmuka Baris Perintah AWS (AWS CLI). Jika Anda mengadopsi infrastruktur sebagai kode (IaC), Anda dapat mengotomatiskan pengaturannya menggunakan Formasi AWS Cloud, yang Kit Pengembangan AWS Cloud (AWS CDK), atau skrip Terraform.

Kelas lingkungan Amazon MWAA XL dan 2XL tersedia saat ini di semua Wilayah di mana Amazon MWAA saat ini tersedia.

Kesimpulan

Hari ini, kami mengumumkan ketersediaan dua kelas lingkungan baru di Amazon MWAA. Dengan kelas lingkungan XL dan 2XL, Anda dapat mengatur alur kerja kompleks atau intensif sumber daya dalam jumlah yang lebih besar. Jika Anda menjalankan DAG dengan jumlah dependensi yang tinggi, menjalankan ribuan DAG di berbagai lingkungan, atau dalam skenario yang mengharuskan Anda menggunakan banyak pekerja untuk komputasi, kini Anda dapat mengatasi masalah kapasitas terkait dengan meningkatkan sumber daya lingkungan Anda dalam beberapa menit. langkah mudah.

Dalam postingan ini, kita membahas kemampuan dua kelas lingkungan baru, termasuk harga dan beberapa masalah kendala sumber daya umum yang dipecahkannya. Kami memberikan panduan dan contoh cara mengamati lingkungan Anda saat ini untuk merencanakan penskalaan ke XL atau 2XL, dan kami menjelaskan bagaimana Anda dapat meningkatkan lingkungan yang ada untuk menggunakan sumber daya yang ditingkatkan.

Untuk detail tambahan dan contoh kode di Amazon MWAA, kunjungi Panduan Pengguna Amazon MWAA dan Contoh Amazon MWAA repo GitHub.

Apache, Apache Airflow, dan Airflow adalah merek dagang terdaftar atau merek dagang dari Yayasan Perangkat Lunak Apache di Amerika Serikat dan/atau negara lain.


Tentang Penulis

Hernan Garcia adalah Arsitek Solusi Senior di AWS yang berbasis di Belanda. Dia bekerja di industri jasa keuangan, mendukung perusahaan dalam adopsi cloud mereka. Dia sangat tertarik dengan teknologi, keamanan, dan kepatuhan tanpa server. Dia senang menghabiskan waktu bersama keluarga dan teman, dan mencoba hidangan baru dari berbagai masakan.

Jeetendra Vaidya adalah Arsitek Solusi Senior di AWS, yang membawa keahliannya ke bidang AI/ML, tanpa server, dan domain analisis data. Dia bersemangat membantu pelanggan dalam merancang solusi yang aman, terukur, andal, dan hemat biaya.

Sriharsh Adari adalah Arsitek Solusi Senior di AWS, yang membantu pelanggan bekerja mundur dari hasil bisnis untuk mengembangkan solusi inovatif di AWS. Selama bertahun-tahun, dia telah membantu banyak pelanggan dalam transformasi platform data di seluruh industri vertikal. Bidang keahlian utamanya meliputi strategi teknologi, analisis data, dan ilmu data. Di waktu senggangnya, ia senang berolahraga, menonton acara TV, dan bermain Tabla.

tempat_img

Intelijen Terbaru

tempat_img