Zephyrnet Logosu

Amazon MWAA için olağanüstü durum kurtarma stratejileri – Bölüm 1 | Amazon Web Hizmetleri

Tarih:

Bulut bilişimin dinamik dünyasında, kritik uygulamaların dayanıklılığının ve kullanılabilirliğinin sağlanması çok önemlidir. Olağanüstü durum kurtarma (DR), bir kuruluşun teknolojiyle ilgili felaketleri öngördüğü ve ele aldığı süreçtir. Kritik iş yükü orkestrasyonunu uygulayan kuruluşlar için Apache Airflow için Amazon Tarafından Yönetilen İş Akışları (Amazon MWAA), iş sürekliliğini sağlamak için bir DR planına sahip olmak çok önemlidir.

Bu seride, Amazon MWAA olağanüstü durum kurtarma ihtiyacını araştırıyor ve Amazon MWAA ortamlarını istenmeyen kesintilere karşı ayakta tutacak çözümler öneriyoruz. Bu, iş sürekliliği planınızın bir parçası olarak kesinti risklerini tanımlamanıza, önlemenize ve ele almanıza olanak tanır. Bu yazı genel DR mimarisinin tasarlanmasına odaklanmaktadır. Bu serinin gelecekteki bir gönderisi, AWS hizmetlerini kullanarak ayrı ayrı bileşenlerin uygulanmasına odaklanacak.

Amazon MWAA felaket kurtarma ihtiyacı

Amazon MWAA, tümüyle yönetilen bir hizmettir. Apache Hava Akışı, ayıklama, dönüştürme ve yükleme (ETL), DevOps ve makine öğrenimi (ML) iş yükleri için iş akışı düzenlemesini otomatikleştirerek kuruluşlara büyük değer katar. Amazon MWAA'nın bir dağıtılmış mimari zamanlayıcı, çalışan, web sunucusu, kuyruk ve veritabanı gibi birden fazla bileşenle. Bu, kapsamlı bir DR stratejisinin uygulanmasını zorlaştırır.

Etkin bir Amazon MWAA ortamı, Airflow'u sürekli olarak ayrıştırır Yönlendirilmiş Asiklik Grafikler (DAG'ler), yapılandırılmış bir cihazdan bunları okuyarak Amazon Basit Depolama Hizmeti (Amazon S3) kovası. Ağa erişilememesi, istenmeyen bozulma veya silme nedeniyle DAG kaynağının kullanılamaması, uzun süreli kapalı kalma süresine ve hizmet kesintisine yol açar.

Airflow'ta meta veri veritabanı, yapılandırma değişkenlerini, rolleri, izinleri ve DAG çalıştırma geçmişlerini depolayan temel bir bileşendir. Bu nedenle sağlıklı bir meta veri veritabanı Airflow ortamınız için kritik öneme sahiptir. Tüm temel Airflow bileşenlerinde olduğu gibi, meta veri veritabanı için bir yedekleme ve olağanüstü durum kurtarma planına sahip olmak çok önemlidir.

Amazon MWAA, Airflow bileşenlerini birden çok cihaza dağıtır Kullanılabilirlik Bölgeleri tercih ettiğiniz VPC'nizde AWS Bölgesi. Bu, tek bir Erişilebilirlik Alanı hatasına karşı hata toleransı ve otomatik kurtarma sağlar. Görev açısından kritik iş yükleri için, çoklu Bölge dağıtımları aracılığıyla üniter bir Bölgenin olumsuzluklarına karşı dirençli olmak, yüksek kullanılabilirlik ve iş sürekliliği sağlamak açısından ayrıca önemlidir.

Yedekli altyapıları, karmaşıklığı ve kurtarma süresini korumaya yönelik maliyetler arasında denge kurmak, Amazon MWAA ortamları için çok önemlidir. Kuruluşlar, maliyetlerini en aza indiren uygun maliyetli çözümler hedeflemektedir. Kurtarma Süresi Hedefi (RTO) ve Kurtarma Noktası Hedefi (RPO) hizmet seviyesi anlaşmalarını karşılamak, ekonomik açıdan sürdürülebilir olmak ve müşterilerinin taleplerini karşılamak.

Felaketleri birincil ortamdaki tespit edin: Ölçümler ve alarmlar aracılığıyla proaktif izleme

Birincil ortamdaki felaketlerin hızlı tespiti, zamanında felaket kurtarma için çok önemlidir. İzleme Amazon Bulut İzleme ZamanlayıcıKalp atışı ölçümü Aktif bir Amazon MWAA ortamının Airflow durumuna ilişkin bilgiler sağlar. Yukarı veya aşağı yönlü sistemlerin kullanılabilirliğini ve ağ erişilebilirliğini kontrol etmek gibi diğer durum kontrolü ölçümlerini değerlendirme kriterlerine ekleyebilirsiniz. İle kombine CloudWatch alarmları, belirli zaman aralıklarında bu eşiklere ulaşılmadığında bildirim gönderebilirsiniz. Birden fazla Bölgedeki AWS kaynaklarınız ve uygulamalarınızı izlemek ve bunlar hakkında uyarılar almak için kontrol panellerine alarmlar ekleyebilirsiniz.

AWS, hizmet kullanılabilirliğine ilişkin en güncel bilgilerimizi şu adreste yayınlar: Hizmet Durumu Kontrol Paneli. Mevcut durum bilgilerini almak için istediğiniz zaman kontrol edebilir veya faaliyet gösterdiğiniz Bölgedeki her bir hizmetteki kesintilerden haberdar olmak için bir RSS beslemesine abone olabilirsiniz. AWS Sağlık Kontrol Paneli Hesabınızı etkileyebilecek AWS Health olayları hakkında bilgi sağlar.

Metrik izlemeyi, kullanılabilir kontrol panellerini ve otomatik alarmı birleştirerek, birincil ortamınızın kullanılabilir olmadığını anında tespit edebilir ve DR planınıza geçiş için proaktif önlemlere olanak tanıyabilirsiniz. İş değeri sağlayan gerçekçi ve ulaşılabilir hedefler sağlamak için olay tespitini, bildirimini, üst kademeye iletilmesini, keşfini ve beyanını DR planlamanıza ve uygulamanıza dahil etmek kritik öneme sahiptir.

Aşağıdaki bölümlerde iki Amazon MWAA DR strateji çözümünü ve bunların mimarisini tartışıyoruz.

DR stratejisi çözümü 1: Yedekleme ve geri yükleme

Yedekleme ve geri yükleme stratejisi, Airflow bileşeni yedeklerinin birincil Amazon MWAA ortamınızla aynı veya farklı Bölgede oluşturulmasını içerir. Sürekliliği sağlamak için bunları birincil Amazon MWAA ortamınız üzerinde minimum performans etkisi ile eşzamansız olarak DR Bölgenize kopyalayabilirsiniz. Nadir görülen birincil Bölgesel bozulma veya hizmet kesintisi durumunda bu strateji, yeni bir Amazon MWAA ortamı oluşturacak ve mevcut yedeklerden geçmiş verileri buraya kurtaracaktır. Ancak kurtarma işlemi sırasında, yeni ortam tamamen sağlanana ve kullanılabilir olarak işaretlenene kadar iş akışlarını işlemek için hiçbir Airflow ortamının operasyonel olmadığı bir dönem olacağını unutmamak önemlidir.

Bu strateji, aynı zamanda birincil Bölgenizdeki veri kaybını veya bozulmayı azaltmak için de uygun olan, düşük maliyetli ve düşük karmaşıklığa sahip bir çözüm sağlar. Yedeklenen veri miktarı ve yeni bir Amazon MWAA ortamı oluşturma süresi (genellikle 20-30 dakika), geri yüklemenin ne kadar hızlı gerçekleşebileceğini etkiler. Altyapının hatasız ve hızlı bir şekilde yeniden konuşlandırılmasını sağlamak için şunu kullanarak dağıtın: kod olarak altyapı (IaC). IaC olmadan benzer bir DR ortamını geri yüklemek karmaşık olabilir; bu da kurtarma sürelerinin artmasına ve muhtemelen RTO'nuzun aşılmasına neden olur.

Aşağıdaki şekilde gösterildiği gibi, birincil Amazon MWAA ortamınız aktif olarak çalışırken gereken kurulumu inceleyelim.

Yedekleme ve Geri Yükleme - Ön

Çözüm üç temel bileşenden oluşuyor. İlk bileşen, Airflow iş akışlarının başlangıçta dağıtıldığı ve aktif olarak çalıştığı birincil ortamdır. İkinci bileşen, CloudWatch ve bir dizi bileşenin birleşiminden oluşan felaket izleme bileşenidir. AWS Basamak İşlevleri durum makinesi ve AWS Lambda işlev. Üçüncü bileşen, geri yüklemek için gereken tüm konfigürasyonların ve meta verilerin yedeklerini oluşturmak ve depolamak içindir. Bu, birincil bölgenizle aynı Bölgede olabilir veya kullanılarak DR Bölgenize çoğaltılabilir. S3 Bölgeler Arası Çoğaltma (CRR). CRR için ayrıca Amazon S3'ten her hedef Bölgeye Bölgeler arası veri aktarımı için de ödeme yaparsınız.

İş akışındaki ilk üç adım aşağıdaki gibidir:

  1. Yedekleme oluşturma sürecinizin bir parçası olarak Airflow meta verileri, bir S3 klasörüne kopyalanır. DAG'ı dışa aktar yardımcı programını RPO aralığınıza göre periyodik olarak çalıştırın.
  2. Mevcut birincil Amazon MWAA ortamınız, planlayıcısının sağlık durumunu otomatik olarak CloudWatch'a gönderir ZamanlayıcıKalp atışı metrik.
  3. Çok adımlı Adım Fonksiyonları devlet makinesi periyodik olarak tetiklenir Amazon EventBridge program Zamanlayıcının sağlık durumunu izlemek için. Durum makinesinin birincil adımı olarak Lambda işlevi, durumu değerlendirir. ZamanlayıcıKalp atışı metrik. Metriğin sağlıklı görülmesi durumunda herhangi bir işlem yapılmaz.

Aşağıdaki şekilde çözüm iş akışındaki ek adımlar gösterilmektedir.

Yedekleme ve Geri Yükleme gönderisi

  1. Kalp atışı sayısı belirli bir süre boyunca normal sayımdan saptığında DR Bölgesinde yeni bir Amazon MWAA ortamına geçiş yapmak için bir dizi eylem başlatılır. Bu eylemler arasında yeni bir Amazon MWAA ortamının oluşturulmasının başlatılması, birincil ortam yapılandırmalarının çoğaltılması ve ardından yeni ortamın kullanılabilir hale gelmesinin beklenmesi yer alır.
  2. Ortam müsait olduğunda, DAG'ı içe aktar meta veri içeriklerini yedeklerden geri yüklemek için yardımcı program çalıştırılır. Birincil ortamın bozulması sırasında kesintiye uğrayan tüm DAG çalıştırmalarının, hizmet düzeyi anlaşmalarının sürdürülmesi için manuel olarak yeniden çalıştırılması gerekir. Gelecekteki DAG çalıştırmaları, bir sonraki yapılandırılmış zamanlamaya göre çalışacak şekilde sıraya alınır.

DR stratejisi çözümü 2: Periyodik veri senkronizasyonuna sahip aktif-pasif ortamlar

Periyodik veri senkronizasyonu stratejisine sahip aktif-pasif ortamlar, aktif birincil ve pasif Amazon MWAA DR ortamı arasında yinelenen veri senkronizasyonunun sürdürülmesine odaklanır. DAG depolarını ve meta veri veritabanlarını periyodik olarak güncelleyip senkronize ederek bu strateji, DR ortamının birincil ortamla güncel veya neredeyse güncel kalmasını sağlar. DR Bölgesi, birincil Amazon MWAA ortamınızla aynı veya farklı bir Bölge olabilir. Bir olağanüstü durum durumunda, veri kaybını veya bozulmayı en aza indirmek için önceden bilinen iyi bir duruma geri dönmek üzere yedeklemeler mevcuttur.

Bu strateji, sık senkronizasyonla düşük RTO ve RPO sağlar ve minimum veri kaybıyla hızlı kurtarmaya olanak tanır. Altyapı maliyetleri ve kod dağıtımları, hem birincil hem de DR Amazon MWAA ortamlarının korunmasını sağlayacak şekilde birleştirilmiştir. DR ortamınız DAG'leri çalıştırmaya hemen hazır.

Aşağıdaki şekil, birincil Amazon MWAA ortamınız aktif olarak çalışırken gereken kurulumu göstermektedir.

Aktif Pasif ön

Çözüm dört temel bileşenden oluşuyor. Yedekleme ve geri yükleme çözümüne benzer şekilde, ilk bileşen, iş akışının başlangıçta dağıtıldığı ve aktif olarak çalıştığı birincil ortamdır. İkinci bileşen, CloudWatch'tan ve Step Functions durum makinesi ile Lambda işlevinin birleşiminden oluşan felaket izleme bileşenidir. Üçüncü bileşen, veritabanı senkronizasyonu için gereken tüm konfigürasyonların ve meta verilerin yedeklerini oluşturur ve saklar. Bu, birincil bölgenizle aynı Bölgede olabilir veya Amazon S3 Bölgeler Arası Çoğaltma kullanılarak DR Bölgenize çoğaltılmış olabilir. Daha önce de belirtildiği gibi, CRR için Amazon S3'ten her hedef Bölgeye Bölgeler arası veri aktarımı için de ödeme yaparsınız. Son bileşen, birincil bileşenle aynı Airflow koduna ve ortam yapılandırmalarına sahip olan pasif bir Amazon MWAA ortamıdır. DAG'ler, birincil olarak aynı sürekli entegrasyon ve sürekli teslim (CI/CD) hattını kullanarak DR ortamında dağıtılır. Birincilden farklı olarak DAG'ler, yinelenen çalıştırmalara neden olmamak için duraklatılmış durumda tutulur.

İş akışının ilk adımları yedekleme ve geri yükleme stratejisine benzer:

  1. Yedekleme oluşturma sürecinizin bir parçası olarak Airflow meta verileri, RPO aralığınıza göre düzenli aralıklarla çalıştırılan bir DAG dışa aktarma yardımcı programı kullanılarak bir S3 klasörüne kopyalanır.
  2. Mevcut birincil Amazon MWAA ortamınız, planlayıcısının sağlık durumunu otomatik olarak CloudWatch'a gönderir ZamanlayıcıKalp atışı metrik.
  3. Çok adımlı bir Step Functions durum makinesi, planlayıcının sağlık durumunu izlemek için periyodik bir Amazon EventBridge programından tetiklenir. Durum makinesinin birincil adımı olarak Lambda işlevi, durumu değerlendirir. ZamanlayıcıKalp atışı metrik. Metriğin sağlıklı görülmesi durumunda herhangi bir işlem yapılmaz.

Aşağıdaki şekil iş akışının son adımlarını göstermektedir.

Aktif Pasif gönderi

  1. Kalp atışı sayısının belirli bir süre boyunca normal sayıdan sapması durumunda DR işlemleri başlatılır.
  2. İlk adım olarak Lambda işlevi, meta veri içeriklerini yedeklerden pasif Amazon MWAA DR ortamına geri yüklemek için bir DAG içe aktarma yardımcı programını tetikler. İçe aktarmalar tamamlandığında, aynı DAG diğer Airflow DAG'lerin duraklatmalarını kaldırabilir ve onları gelecekteki çalıştırmalar için etkin hale getirebilir. Birincil ortamın bozulması sırasında kesintiye uğrayan tüm DAG çalıştırmalarının, hizmet düzeyi anlaşmalarının sürdürülmesi için manuel olarak yeniden çalıştırılması gerekir. Gelecekteki DAG çalıştırmaları, bir sonraki yapılandırılmış zamanlamaya göre çalışacak şekilde sıraya alınır.

Amazon MWAA'nın dayanıklılığını artırmaya yönelik en iyi uygulamalar

Amazon MWAA ortamınızın dayanıklılığını artırmak ve olağanüstü durum kurtarmanın sorunsuz olmasını sağlamak için aşağıdaki en iyi uygulamaları uygulamayı düşünün:

  • Sağlam yedekleme ve geri yükleme mekanizmaları – Amazon MWAA verileri için kapsamlı yedekleme ve geri yükleme mekanizmalarının uygulanması çok önemlidir. Kuruluşunuzun saklama politikalarına göre mevcut meta verileri düzenli olarak silmek, yedekleme sürelerini azaltır ve Amazon MWAA ortamınızın daha performanslı olmasını sağlar.
  • IaC kullanarak otomasyon – Otomasyon ve orkestrasyon araçlarını kullanma AWS CloudFormation, AWS Bulut Geliştirme Kiti (AWS CDK) veya Terraform Amazon MWAA ortamlarının dağıtımını ve yapılandırma yönetimini kolaylaştırabilir. Bu, DR senaryoları sırasında tutarlılık, tekrarlanabilirlik ve daha hızlı kurtarma sağlar.
  • Idempotent DAG'ler ve görevler – Airflow'da, aynı DAG'ı aynı girişlerle birden çok kez yeniden çalıştırmak, onu yalnızca bir kez çalıştırmakla aynı etkiye sahipse, bir DAG'nin önemsiz olduğu kabul edilir. Bağımsız DAG'ler tasarlamak ve görevleri atomik tutmak, kurtarılan ortamınızda kesintiye uğrayan bir DAG'yi manuel olarak yeniden çalıştırmanız gerektiğinde hatalardan kurtarma süresini azaltır.
  • Düzenli test ve doğrulama – Güçlü bir Amazon MWAA DR stratejisi, düzenli test ve doğrulama alıştırmalarını içermelidir. Felaket senaryolarını simüle ederek DR planlarınızdaki boşlukları tespit edebilir, süreçlerinizde ince ayar yapabilir ve Amazon MWAA ortamlarınızın tamamen kurtarılabilir olmasını sağlayabilirsiniz.

Sonuç

Bu yazıda Amazon MWAA olağanüstü durum kurtarmanın zorluklarını araştırdık ve dayanıklılığı artırmaya yönelik en iyi uygulamaları tartıştık. İki DR strateji çözümünü inceledik: yedekleme ve geri yükleme ile periyodik veri senkronizasyonuna sahip aktif-pasif ortamlar. Bu çözümleri uygulayarak ve en iyi uygulamaları takip ederek Amazon MWAA ortamlarınızı koruyabilir, kesinti süresini en aza indirebilir ve felaketlerin etkisini azaltabilirsiniz. Etkili bir Amazon MWAA DR stratejisi için düzenli test etme, doğrulama ve gelişen gereksinimlere uyum sağlama çok önemlidir. Felaket kurtarma planlarınızı sürekli olarak değerlendirip iyileştirerek, öngörülemeyen olaylar karşısında bile Amazon MWAA ortamlarınızın dayanıklılığını ve kesintisiz çalışmasını sağlayabilirsiniz.

Amazon MWAA ile ilgili ek ayrıntılar ve kod örnekleri için bkz. Amazon MWAA Kullanım Kılavuzu ve Amazon MWAA örnekleri GitHub deposu.


Yazarlar Hakkında

Parnab Başak AWS'de Kıdemli Çözüm Mimarı ve Sunucusuz Uzmanıdır. Sunucusuz, DevOps ve analitik gibi modern yazılım geliştirme uygulamalarını kullanarak bulutta yerel yeni çözümler oluşturma konusunda uzmanlaşmıştır. Parnab, analiz ve entegrasyon hizmetleri alanında yakın işbirliği içinde çalışarak müşterilerin iş akışı düzenleme ihtiyaçları için AWS hizmetlerini benimsemelerine yardımcı oluyor.

Chandan Rupakheti AWS'de Çözüm Mimarı ve Sunucusuz Uzmanıdır. Bulutta yenilikçi çözümler oluşturma ve paydaşları bulut yolculuklarında bir araya getirme becerisine sahip, tutkulu bir teknik lider, araştırmacı ve mentordur. Mesleki hayatının dışında müzik dinlemenin ve çalmanın yanı sıra ailesi ve arkadaşlarıyla vakit geçirmeyi çok seviyor.

Vinod Jayendra Amazon Web Services'te ISV hesaplarında Kurumsal Destek Lideridir ve burada müşterilerin mimari, operasyonel ve maliyet optimizasyonu zorluklarını çözmelerine yardımcı olur. Sunucusuz teknolojilere özel olarak odaklanarak, üst düzey çözümler sunmak için uygulama geliştirmedeki kapsamlı geçmişinden yararlanıyor. İşinin ötesinde, aileyle kaliteli zaman geçirmekten, bisiklete binme maceralarına atılmaktan ve genç spor takımına koçluk yapmaktan keyif alıyor.

Rupesh Tiwari New York City'deki AWS'de Finansal Hizmetlere odaklanan Kıdemli Çözüm Mimarıdır. Finans, sigorta ve eğitim alanlarında 18 yıldan fazla BT deneyimine sahiptir ve büyük ölçekli uygulamaların ve bulut tabanlı büyük veri iş yüklerinin tasarlanması konusunda uzmanlaşmıştır. Rupesh boş zamanlarında karaoke söylemekten, komedi dizileri izlemekten ve ailesiyle keyifli dakikalar geçirmekten hoşlanıyor.

spot_img

En Son İstihbarat

spot_img