Zephyrnet Logosu

AWS ProServe Hadoop Migration Delivery Kit TCO aracıyla tanışın

Tarih:

Ne zaman Hadoop iş yüklerini Amazon EMR'ye taşıma, mevcut iş yüklerini elle analiz etmeden en uygun küme yapılandırmasını belirlemek genellikle zordur. Bunu çözmek için, Hadoop geçiş değerlendirmesi Toplam Sahip Olma Maliyeti (TCO) aracını kullanıma sunuyoruz. Artık AWS ProServe Hadoop Geçiş Teslim Kiti (HMDK) içinde bir Hadoop geçiş değerlendirme TCO aracınız var. Self servis HMDK TCO aracı, yeni uygun maliyetli tasarımını hızlandırır Amazon EMR'si mevcut Hadoop iş yükünü analiz ederek ve gelecekteki Amazon EMR sisteminde çalışan toplam sahip olma maliyetini (TCO) hesaplayarak kümeler oluşturun. Yeni Amazon EMR tasarımına sahip Amazon EMR TCO raporu, ayrıntılı maliyet tasarrufu ve iş avantajlarıyla Amazon EMR geçişini gösterebilir.

Bu gönderide, bir kullanım durumunu ve aracın işlevlerini ve bileşenlerini tanıtıyoruz. Aracı kullanmanın faydalarını size göstermek için örnek olayları da paylaşıyoruz. Son olarak, size aracı kullanmanız için teknik bilgileri gösteriyoruz.

Kullanım örneğine genel bakış

Hadoop iş yüklerini Amazon EMR'ye taşımak, büyük veri analitiği modernizasyonunu hızlandırır, üretkenliği artırır ve operasyonel maliyeti azaltır. Birleştirilmiş bilgi işlem ve depolamayı ayrıştırma mimarisine yeniden düzenlemek, modern bir veri çözümüdür. EMR bulut sunucuları gibi bilgi işlemi ve aşağıdakiler gibi depolamayı etkinleştirir: Amazon Basit Depolama Hizmeti (Amazon S3) ölçeklenebilir veri gölleri. Çeşitli Hadoop işleri için müşteriler, tamamen yönetilen Amazon EMR'nin ısmarlama dağıtım seçeneklerine sahiptir. Amazon EKS'de Amazon EMR, ve EMR Sunucusuz. Optimize edilmiş gelecek EMR kümesi, kaynak Hadoop kümesine kıyasla çok daha düşük TCO ile aynı sonuçları ve değerleri verir. Ancak, aşağıdaki şekilde gösterildiği gibi, maliyet tasarrufu ayrıntılarını göstermek için bir TCO raporuna ihtiyacımız var.

Tipik olarak, bir Hadoop geçişinin başlaması, Hadoop uzmanlarının sonraki geçiş için bir plan doğrultusunda mevcut Hadoop kümesi iş yüklerini değerlendirmek için haftalar hatta aylar harcamasını gerektirir. Bu, iyi bir TCO raporu olmadan projenin kabul edilmesini geciktirebilir.

AWS ProServe, Hadoop geçişlerini hızlandırmak ve KOBİ'lerin iş yükü değerlendirme çabalarını hafifletmek için AWS ProServe Hadoop Geçiş Teslim Kiti içinde Hadoop geçiş değerlendirmesi TCO aracını oluşturdu.

HMDK TCO aracına giriş

Bir Hadoop geçiş hızlandırıcısı olarak HMDK TCO aracının üç bileşeni vardır:

  • İPLİK günlük toplayıcı – YARN Resource Manager'dan mevcut iş yükü günlüklerini alır
  • YARN log analizörü – İşlerin farklı yönleri hakkında derin bir zamana dayalı içgörü sağlar
  • Toplam Sahip Olma Maliyeti (TCO) Hesaplayıcı – Otomatik olarak hesaplanan 3 yıllık veya 1 yıllık bir TCO oluşturur

Self servis HMDK TCO aracı şu adresten indirilebilir: GitHub.

Aracı kullanmak üç adımdan oluşur:

  1. İlk olarak, YARN Günlük toplayıcı, YARN günlüklerini almak için mevcut Hadoop sistemiyle iletişim kurar.
  2. Toplanan YARN günlükleri ile bir sonraki adım, YARN günlük çözümleyicisini kullanmak ve günlük çözümleyici yığınını kullanarak kurmaktır. AWS CloudFormation. Günlük analiz aracının sonuçları, Hadoop uygulamalarının çeşitli görünümleri ve ölçümleriyle birlikte Hadoop iş yükü içgörülerini ortaya çıkarır. Amazon QuickSight Gelecekteki bir EMR kümesinin tasarımına yol açan panolar.
  3. Son olarak, TCO hesaplayıcı, gelecekteki bir EMR kümesinin saatlik kaynak kullanımını simüle ederek TCO raporunu oluşturur. Hadoop geçiş değerlendirmesini hızlandırmak için TCO raporu, iş paydaşlarınızın satın alma kararı vermesi için önemli bilgiler ve değerler sağlar.

Aşağıdaki şema bu mimariyi göstermektedir.

Hadoop iş yükü içgörüleri, çevik bir şekilde performans ve maliyet etkinliği elde etmek için iyi tasarlanmış bir EMR kümesi tasarlamanıza olanak tanır. İyi mimariye sahip tasarımlar yürütmek için, bir EMR kümesinin çeşitli sistem özellikleri ile birden fazla maliyet değerlendirmesi arasında karar vermeniz gerekir.

Sistem özellikleri aşağıdaki gibidir:

  • EMR kümesi sayısı – Amazon EMR, şirket içinde paylaşılan bir statik Hadoop kümesiyle aynı amaca hizmet etmek için AWS Cloud'da birden çok elastik küme çalıştırmanıza olanak tanır
  • EMR kümesi türleri (kalıcı veya geçici) – Maliyetten tasarruf etmek için sisteminizi minimum kalıcı kümeleri tutacak şekilde tasarlayın
  • Örnek türleri ve yapılandırma (bellek, sanal çekirdek vb.) – İşiniz için doğru örneği seçin
  • Uygulamalar ve küme kullanımı için kaynak tahsisi – Şirket içi iş yükü analizine dayalı olarak, gelecekteki EMR kümelerinde etkili kaynak tahsisi ve verimli kaynak kullanımı tasarlayın

Maliyet değerlendirmeleri aşağıdaki gibidir:

  • En son fiyat listesi (mevcut binlerce EC2 bulut sunucusu arasından) – HMDK TCO aracı ile fiyat hesaplaması yapar Amazon Elastik Bilgi İşlem Bulutu (Amazon EC2) bulut sunucusu türleri, yapılandırmaları ve fiyatları.
  • Amazon S3 depolama maliyeti (standart, Glacier vb.) – Veri replikasyonu artık güvenilirlik için gerekli değildir. Maliyet tasarrufu için Amazon S3'te yorgun depolamayı kullanabilirsiniz.

İPLİK günlük toplayıcı

HMDK TCO aracı, Hadoop iş yürütme istatistiklerini ve karşılık gelen kaynak kullanımlarını içeren Hadoop YARN günlüklerini yakalamanın basit bir yolunu sağlar. Aşağıdaki ekran görüntüsü bir YARN günlüğü örneğidir.

Araç, YARN Resource Manager ile iletişim kurmak için HTTPS protokolünü destekler. Araç, JSON YARN günlüklerini, YARN günlüklerini JSON'dan CSV biçimine dönüştüren bir Python ayrıştırıcısına girdi olarak taşır. Yeni CSV biçimli günlükler, YARN günlük çözümleyici için standart girdi dosyalarıdır.

Daha fazla bilgi için, bkz: GitHub repo.

YARN log analizörü ve optimize edilmiş tasarım kullanım durumları

Log ile aşağıdaki adımları takip edebiliriz. TCO yarn-log-analizi README QuickSight kaynaklarını ayarlamak için AWS CloudFormation'ı kullanmak için dosya.

HMDK TCO günlük analizcisi, çeşitli metriklerde bir QuickSight panosu oluşturur:

  • iş zaman çizelgesi – Aynı anda çalışan kaç iş var?
  • İş kullanıcısı – Kullanıcıların ve kuyrukların dökümü
  • Uygulama tipi ve motor tipi – Uygulama türlerine (Spark, Hive, Presto) ve çalışan motor türüne (MapReduce, Spark, Tez) göre döküm
  • Geçen zaman – Bir başvuruyu tamamlama süresi
  • Kaynaklar – Bellek ve CPU

Aşağıdaki ekran görüntüsü örnek bir kontrol panelini göstermektedir.

QuickSight panoları, yeterince uzun bir süre içinde (örneğin, 2 haftalık bir pencere) toplanan ardışık YARN günlüklerine dayalı içgörüler gösterir. Günlüklerden elde edilen içgörüler, uygulama türlerini, kullanıcıları, kuyrukları, çalışma kadansını, zaman aralıklarını ve kaynak kullanımlarını ortaya çıkarır. Veriler ayrıca günlük toplu işleri veya geçici işleri, uzun süren işleri ve kaynak tüketimini keşfetmenize yardımcı olur. Bu içgörüler, geçici kümeler veya temel kalıcı kümeler gibi doğru kümeleri tasarlamanıza ve bellek veya bilgi işlem açısından yoğun işler için doğru EC2 bulut sunucusunu seçmenize yardımcı olur. Günlük analiz cihazı sonuçlarıyla TCO aracı, gelecekteki bir EMR kümesinin TCO'sunu otomatik olarak hesaplar.

Aşağıdaki bölümlerde bazı gerçek müşteri kullanım örneklerini görelim.

Durum 1: Geçici ve kalıcı kümeleri akıllıca kullanın

Bu kullanım durumu için, finans sektöründeki bir müşterinin 11 düğümlü bir Hadoop kümesi vardır.

QuickSight zaman çizelgesi panosu, günlük toplu iş nedeniyle işin en yoğun olduğu zamanı gösterir. Bu, mevcut iş yüklerini yerine getirmek için iki küme tasarlamamıza rehberlik eder. Kalıcı bir kümeyi minimum boyutta tuttuğumuzda, toplu iş tarzı işi en yoğun zamanlarda halletmek için geçici EMR kümesine sahip olabiliriz.

Bu nedenle, kümeleri 2 veri düğümlü kalıcı bir kümeye sahip olacak şekilde tasarladık, geçici düğümler ise 0:10 AM ve 1:00 AM saatleri arasında 4-00 arasında ölçeklenebilir.

Aşağıdaki şekil bu tasarımı göstermektedir.

Geçici ve kalıcı kümeler kullanan bu dengeli tasarım, kaldır ve değiştir tasarımına kıyasla yaklaşık %80'lik bir maliyet tasarrufu sağladı.

Durum 2: Birden çok küme tasarlamak ve optimize edilmiş çalıştırmalar için Hadoop kuyruğu kullanımını ve uzun süreli işleri belirleyin

Bir sonraki kullanım durumumuz için, bir şirket Hadoop 196 kullanarak Hive, Spark ve Kafka gibi işlerle 3.1 düğüm çalıştırıyor. Çeşitli iş yüklerini gruplandırmak için Hadoop varsayılan sırası ve diğer dört sıra kullanıldı. Aşağıdaki şekilde gösterildiği gibi, paylaşılan kümede çok uzun süren bazı işler görülüyor, bu da kaynak rekabeti ve dengesiz kaynak tahsisi olan sıradaki işlerle sonuçlanıyor.

QuickSight kullanıcı panosu, kuyruk kullanımı konusunda bize yol gösterir, geçen süre panosu uzun süren işler konusunda bize yol gösterir ve kaynak panosu, işler için bellek ve vCore kullanımı konusunda bize yol gösterir.

Bu nedenle, kuyruk işlerini ayrı kümelerde çalışacak şekilde aktarmak için bir çözüm tasarlıyoruz ve varsayılan kuyruk işleri, farklı kümelerde çalışacak şekilde bölünüyor. Uzun süreli işleri tanımlayarak ve kaynak ihtiyaçlarını anlayarak, bu tür işleri daha verimli bir şekilde yürütmek için bir küme tasarlayabiliriz.

Bu tasarım, işin daha hızlı çalışmasına ve kümelerin maliyet tasarrufu avantajıyla daha verimli kullanılmasına olanak tanır.

Küme tasarımı

HMDK TCO aracı, aşağıdaki örnek gibi bir küme tasarım şablonu sağlar.

Burada Spark ve Tez işlerini uygun şekilde halletmek için biri geçici diğeri kalıcı olmak üzere iki kümemiz var. Log analizinden her küme için başlangıç ​​ve bitiş saati belirlenebilir. Bu küme tasarımı ile saatlik iş yükü kaynak kullanım tahminini alabiliyoruz. Ardından, TCO hesaplayıcı, seçtiğiniz TCO simülasyon değişkenlerine dayalı olarak maliyetleri oluşturmak için gereken tüm bilgileri alır.

Toplam Sahip Olma Maliyeti (TCO) Hesaplayıcı

HMDK TCO hesaplayıcısı, EMR tasarım şablonunu kullanarak EMR küme tasarımına rehberlik eden bir bileşendir. Ardından, bir Python programı kullanarak saatlik toplu kaynak kullanımı tahminini oluşturur. Bileşen, sistem ve maliyet spesifikasyonu parametrelerini girmek için yönergeler ve bir Excel şablonu sağlar. Bileşen, yerleşik bir Amazon EMR fiyat listesine sahip bir mantığa sahiptir. 1 yıllık ve 3 yıllık TCO maliyeti, makro özellikli Excel TCO şablonu tarafından otomatik olarak oluşturulabilir.

Aşağıdaki şekil, HMDK TCO simülasyonumuzun ayrıntılarını göstermektedir.

Aşağıdaki rakamlar TCO raporunu göstermektedir.

TCO aracı katılım sonuçları

Bu bölümde, TCO aracını 1-2 hafta kullandıktan sonra müşterilerden aldığımız etkileşim sonuçlarından bazılarını paylaşıyoruz. Ek olarak, TCO aracıyla şirket içi Hadoop kümelerini, Amazon S3'ü bir veri gölü olarak kullanan EMR kümelerine yeniden düzenleyebiliriz. Amazon EMR'ye geçişin modern veri çözümü, operasyonel verimlilik ve maliyet tasarrufu ile sınırsız ölçeklenebilirlik sağlar.

Aşağıdaki tablo, aracı kullanan bazı sözleşmelere ilişkin dört vaka incelemesini göstermektedir.

Dava# Vaka Tanımı Etkileşim Sonucu
1 Hadoop Lisansının baskısıyla Amazon EMR'yi kullanarak AWS'ye geçiş yaptılar ve Hive'ı değiştirmek için Spark'ı kullandılar. Geçici ve kalıcı kümelerin dengeli bir tasarımını kullanarak yeni EMR kümelerini tasarladılar. Araç aracılığıyla iş içgörüleri edinebilir ve mevcut iş yüklerini yerine getirmek için yeni EMR kümelerini tasarlayabilir ve %80 maliyet tasarrufu ve altı kat performans artışı elde etmeyi bekleyebilirler.
2 Hedefleri, 1,000'den fazla düğüme sahip bir Hadoop kümesini HDFS'den Amazon S3'e ve Hive'dan Spark'a geçirmek ve kümeyi dengeli bir geçici ve kalıcı küme tasarımı kullanarak yeniden tasarlamaktı. %1 maliyet tasarrufu sağlaması beklenen optimize edilmiş yeniden tasarım mimarisinin 64 yıllık toplam sahip olma maliyeti ile iş içgörüleri edinebilir ve kümeyi yeniden tasarlayabilirler.
3 Amaçları Hadoop 3.1'e geçmekti. Aynı kümeyi paylaşan Hadoop sıra tabanlı işi, her iş çalıştırması için optimize edilmiş kaynak kullanımıyla iki geçici kümeye ve beş kalıcı kümeye aktardılar ve uzun süren işleri daha hızlı hallettiler. Amazon EMR TCO sonuçlarını 2 hafta içinde hızlı bir şekilde alabilirler. Müşteriler, iş yükleri ve uzun süren işler hakkında fikir edinir ve işi daha hızlı ve daha ucuza yapar.
4 Amaçları, Hive 1'den Spark'a geçmek ve otomatik ölçeklenen bir EMR kümesi tasarlamaktı. Amazon EMR TCO sonuçlarını 1 hafta içinde alabilirler. Yeniden tasarlanan EMR kümelerinde %75 maliyet tasarrufu ve performans iyileştirmesinde 10 kat tasarruf görmeyi bekliyorlar.

Sonuç

Bu gönderi, HMDK TCO aracının kullanım durumlarını, işlevlerini ve bileşenlerini tanıttı. Bu gönderide ele alınan örnek olay incelemeleri sayesinde, araç kullanımının gerçek örneklerini ve faydalarını öğrendiniz. HMDK TCO aracı, hesaplanan TCO hesaplamasıyla kaynak Hadoop kümesi iş yükü değerlendirmesini otomatikleştirmek için tasarlanmıştır ve aylar yerine 2-3 hafta içinde yapılabilir.

Giderek daha fazla sayıda müşteri, Amazon EMR'ye geçişlerini hızlandırmak için HMDK TCO aracını benimsiyor.

HMDK TCO aracını derinlemesine incelemek için bu dizideki bir sonraki gönderiye bakın, AWS ProServe Hadoop TCO aracı, Hadoop iş yükü geçişlerini Amazon EMR'ye nasıl hızlandırır?.


yazarlar hakkında

Sungyoul Parkı AWS ProServe'de Kıdemli Uygulama Yöneticisidir. AWS Analytics, IoT ve AI/ML hizmetleriyle müşterilerinin işlerinde yenilik yapmasına yardımcı oluyor. Büyük veri hizmetleri ve teknolojilerinde bir uzmanlığa sahiptir ve müşteri iş sonuçlarını birlikte oluşturmaya ilgi duyar.

Jiseong Kim AWS ProServe'de Kıdemli Veri Mimarıdır. Esas olarak veri gölü geçişi ve modernizasyonuna yardımcı olmak için kurumsal müşterilerle çalışır ve Hadoop, Spark gibi büyük veri projeleri, veri ambarı, gerçek zamanlı veri işleme ve büyük ölçekli makine öğrenimi gibi konularda rehberlik ve teknik yardım sağlar. Ayrıca, büyük veri sorunlarını çözmek ve iyi tasarlanmış bir veri mimarisi oluşturmak için teknolojilerin nasıl uygulanacağını da anlıyor.

George Zhao AWS ProServe'de Kıdemli Veri Mimarıdır. Modern veri çözümleri sunmak için AWS müşterileriyle birlikte çalışan deneyimli bir analitik lideridir. Ayrıca, Hadoop'tan Amazon EMR'ye geçişler için en iyi uygulamalar ve teslimat kitleri konusunda ProServe danışmanlarına olanak tanıyan bir ProServe Amazon EMR etki alanı uzmanıdır. İlgi alanları, veri gölleri ve bulut modern veri mimarisi sunumudur.

kalen zhang AWS'de İş Ortağı Verileri ve Analitiğinin Global Segment Teknoloji Lideriydi. Güvenilir bir veri ve analitik danışmanı olarak, veri dönüşümü için stratejik inisiyatifler düzenledi, veri ve analitik iş yükü taşıma ve modernizasyon programlarına liderlik etti ve iş ortaklarıyla geniş ölçekte müşteri taşıma yolculuklarını hızlandırdı. Dağıtılmış sistemler, kurumsal veri yönetimi, gelişmiş analitik ve büyük ölçekli stratejik girişimlerde uzmanlaşmıştır.

spot_img

En Son İstihbarat

spot_img