Zephyrnet Logosu

Hadoop Ekosisteminin Kısa Tarihi

Tarih:

2002'de internet araştırmacıları sadece daha iyi bir arama motoru ve tercihen açık kaynaklı bir arama motoru istediler. İşte o zaman Doug Cutting ve Mike Cafarella onlara istediklerini vermeye karar verdiler ve projelerini "Nutch" olarak adlandırdılar. Hadoop orijinal olarak Nutch altyapısının bir parçası olarak tasarlandı ve 2005 yılında sunuldu.

Hadoop ekosistemi, dar bir şekilde, şu anda mevcut olan farklı yazılım bileşenlerini ifade eder. Apache Hadoop Commons (Hadoop'u destekleyen yardımcı programlar ve kitaplıklar) ve Apache Software Foundation tarafından sunulan araçları ve aksesuarları ve bunların birlikte çalışma yollarını içerir. Hadoop, büyük miktarda veriyi işlemek ve analiz etmek için yararlı olan Java tabanlı bir çerçeve kullanır. Hem temel Hadoop paketi hem de aksesuarlarının çoğu Apache tarafından lisanslanmış açık kaynaklı projelerdir. Hadoop ekosistemi kavramı, Hadoop'un çekirdeğinin MapReduce, Hadoop Dağıtılmış Dosya Sistemi (HDFS) ve bir Hadoop kaynak yöneticisi olan YARN gibi farklı kısımlarını içerir.

Harita indirgeme

2004 yılında Google, dağıtık hesaplama için tasarlanmış yeni bir Harita/Küçült algoritması sundu. Bu, Hadoop'un temel bir bileşeni olan MapReduce'a dönüştü. HDFS deposundaki gerçek verilerin işlendiği Java tabanlı bir sistemdir. Bu, büyük miktarlarda yapılandırılmış ve yapılandırılmamış verileri işlemek için tasarlanmış bir veri işleme katmanıdır. MapReduce, bir büyük veri işi daha küçük görevlere işlemek. Bu, işleri birden çok bağımsız göreve ayırma ve bunları tek tek işleme kavramına dayanır. MapReduce, büyük veri dosyalarını paralel olarak yönetme yeteneğine sahiptir.

İlk “Harita” aşamasında, karmaşık mantık kodunun tamamı tanımlanır. Bu, büyük miktarda yapılandırılmış ve yapılandırılmamış veriyi işlemek için tasarlanmış bir veri işleme katmanıdır. "Azaltma" aşamasında işler küçük, bireysel görevlere ayrılır ve ardından birer birer yönetilir. Hadoop'un ekosisteminde MapReduce, uygulamaları binlerce dosyaya kolayca yazan bir çerçeve sunar. düğümler ve sonuçları bulmak için büyük veri kümelerini azaltmadan önce paralel olarak analiz eder. MapReduce'un çalışmasının temel yolu, çeşitli düğümlere bir işlem sorgusu göndermek ve ardından çıktı için sonuçları tek bir değer olarak toplamaktır.

Hadoop Dağıtılmış Dosya
Sistem (HDFS)

Apache Hadoop'un büyük veri depolama katmanına Hadoop Dağıtılmış Dosya Sistemi veya kısaca HDFS denir. Ancak başlangıçta Nutch Dağıtılmış Dosya Sistemi olarak adlandırılıyordu ve 2004'te Nutch projesinin bir parçası olarak geliştirildi. Resmi olarak 2006'da Apache Hadoop'un bir parçası oldu.

Kullanıcılar
büyük veri kümelerini HDFS'ye indirebilir ve verileri sorunsuz bir şekilde işleyebilir.
Apache Hadoop, kural olarak donanım hatası felsefesini kullanır.
istisna. Bir HDFS, her sunucuyla birlikte yüzlerce sunucu makinesi kullanabilir.
sistem verilerinin bir kısmını depolamak. Çok sayıda sunucu ve bunların
bileşenlerin her birinin arıza olasılığı vardır, yani HDFS'nin bazı bileşenleri
her zaman işlevsiz kalacaktır. Bunu akılda tutarak, arızaların tespiti ve
hızlı, otomatik kurtarma, Apache Hadoop'un temel mimari hedefi olmuştur.

HDFS'nin diğer temel yönleri
şunlardır:

  • Akış Veri Erişimi: HDFS üzerinde çalışan uygulamalar, verilere akış erişimi gerektirir. Bu uygulamalar, tipik olarak “normal” sistemlerde çalışan genel amaçlı uygulamalar değildir. Hadoop Dağıtılmış Dosya Sistemleri, etkileşimli kullanım için değil toplu işleme için tasarlanmıştır.
  • Büyük Veri Kümeleri: HDFS üzerinde çalışan uygulamalar büyük veri kümeleriyle birlikte gelir. HDFS'deki bir dosya normalde gigabayt ila terabayt aralığındadır ve tek bir kümede yüzlerce düğümle çalışmak için yüksek bir toplam veri bant genişliği ve ölçeklendirme sağlamalıdır. HDFS, tek bir örnekte birkaç milyon dosyayı destekleyebilir.
  • Basit Tutarlılık Modeli: Bir HDFS uygulaması, bir kez yaz, çok oku erişim modeli kullanır. İçeriğin bir dosyanın sonuna eklenmesi desteklenirken, rastgele bir noktada güncellenemez. Bu, veri tutarlılığı sorunlarını basitleştirmenin yanı sıra yüksek verimli veri erişimine olanak tanır. MapReduce uygulamaları (veya web tarama uygulamaları) bu modele mükemmel uyum sağlar.
  • HDFS'ye ve HDFS'den Verileri İçe/Dışa Aktarın: In Hadoop'un, veriler çeşitli kaynaklardan HDFS'ye aktarılabilir. Veriler içe aktarıldıktan sonra, MapReduce kullanılarak veya Hive veya Pig gibi bir dille gerekli düzeyde işleme gerçekleştirilebilir. Hadoop sistemi, büyük miktarda veriyi işleme esnekliği sunarken aynı anda işlenmiş verileri diğer konumlara şu şekilde aktarır: kepçe.

Cloudera

Cloudera 2008 yılında başlatılmış ve Hadoop Ekosistemine hem kullanımı hem de araçların geliştirilmesi açısından önemli destek sağlamıştır. Üç deneyimli mühendis ve bir Oracle yöneticisi tarafından başlatıldı. Google'dan Mühendisler (Christophe Bisciglia), Yahoo! (Amr Awadallah) ve Facebook (Jeff Hammerbacher), Cloudera'yı kurmak için Oracle yöneticisi Mike Olson ile birleşti. için bir platform sağlayan bir yazılım şirketidir. makine öğrenme, veri ambarı, veri mühendisliği ve analitik. Cloudera, bulutlarında çalışır veya şirket içi projeler için kullanılabilir.

Cloudera bir
Apache Yazılım Vakfı'nın sponsoru. Açık kaynaklı, hibrit olarak başladı
Kurumsal sınıfa odaklanan Apache Hadoop dağıtım sistemi
teknolojinin dağıtımları. Cloudera yüzde 50'den fazlasını açıkladı
mühendislik çıktısı, çeşitli Apache lisanslı açık
Apache Hadoop platformunu oluşturmak için bir araya gelen kaynak projeler. Doug Kesme
(iki orijinal Hadoop geliştiricisinden biri ve Apache'nin eski başkanı
Software Foundation), 2009 yılında Cloudera'ya katıldı.

Tools

Büyük veri endüstrisindeki zorluk, veri hacmidir. Bazı görevler, günlük dosyalarından alınan farklı kimliklerin sayısını, belirli bir tarih aralığı için depolanan verileri dönüştürmeyi ve sayfa sıralamalarını içerir. Tüm bu görevler çeşitli yöntemlerle çözülebilir. Araçlar ve teknikler Hadoop'ta. Geliştiriciler için daha popüler araçlardan bazıları şunlardır:

  • Apaçi Kovanı: Aslen Facebook tarafından geliştirilen ve Ağustos 2008 civarında piyasaya sürülen bir veri analiz aracı.
  • Apaçi Domuzu: Yahoo! için bir araştırma projesi olarak başlayan bir veri akışı dili. 2006'da MapReduce ile çalışmak için. 2007'de Apache kuluçka makinesi aracılığıyla açık kaynaklıydı. 2008'de “Apache” Pig'in ilk sürümü çıktı.
  • HBaz: Powerset adlı bir işletme tarafından bir araştırma projesi olarak başlayan, ölçeklenebilir, dağıtılmış, büyük veri deposu görevi gören bir Hadoop veritabanı. Apache HBase, Şubat 2007'de piyasaya sürüldü.
  • Apache Spark: Büyük verileri işlemeye yönelik genel bir motor, ilk olarak 2009 yılında bir araştırma projesi olarak UC Berkeley'de başlatıldı. Spark, 2010 yılında açık kaynaklıydı. 2013 yılında Apache Yazılım Vakfı'na taşındı.
  • kepçe: Dış kaynaklardan verileri HDFS, Hive veya Hbase gibi ilgili Hadoop bileşenlerine aktarmak için kullanılır. Ayrıca Hadoop'tan verileri başka harici konumlara göndererek dışa aktarabilir. Sqoop başlangıçta Cloudera tarafından geliştirildi ve bakımı yapıldı ve Temmuz 2011'de Apache'ye devredildi. Nisan 2012'de Sqoop projesi bir Apache oldu. üst düzey proje.
  • ambargo: 2012 yılında Hortonworks tarafından geliştirilen ve çeşitli Apache kaynaklarının birleşik kullanımını düzenlemeye yardımcı olan bir Hadoop ekosistem yöneticisi.

Apache İPLİK

YARN, Hadoop 3.2.0'ın temel bir parçasıdır. Artan iş yüklerinden korkmadan çeşitli Hadoop uygulamalarını çalıştırabilir. Bu, Hadoop'un işletim sistemidir. İş yüklerinin yönetilmesinden, izlenmesinden ve güvenlik kontrollerinin uygulanmasından sorumludur. bileşen sağlar Veri yönetimi çeşitli Hadoop kümelerinde araçlar. YARN uygulamaları, toplu işleme veya gerçek zamanlı akış vb. içerir.

2006 yılında Yahoo! benimsenen Apache
Hadoop, WebMap uygulamasını değiştirecek. Bu süreçte, 2007 yılında Arun C.
Murthy bir soruna dikkat çekti ve bunun üzerine bir makale yazdı. Diğer öncelikler nedeniyle, Apache
(ve Murthy) sorunu çözmek için 2012'ye kadar bekledi ve
işlem. YARN'ın arkasındaki temel kavram, iş için işlevlerin bölünmesidir.
zamanlama/izleme ve kaynak yönetimi. Bunun sonucunda bir
"uygulama başına" ApplicationMaster ve bir ResourceManager.

Horton işleri

Horton işleri Haziran 2011'de bağımsız bir işletme olarak başladı. Hortonworks Veri Platformu, çeşitli kaynaklardan ve formatlardan gelen verileri işlemek için tasarlanmıştır. Platformları, tüm temel Hadoop teknolojilerini ve ek bileşenleri içerir. Hortonworks, Ocak 2019'da Cloudera ile birleşti.

Hadoop ve Akış
analitik

The Şeylerin İnternet kuruluşların gerçek zamanlı eylemlerde bulunmak için akış analitiğini kullanmalarına izin verdi. IBM Akışları ve Hortonworks Veri Akışı veri kaynaklarını gerektiği gibi eklemek ve ayarlamak için kullanılabilecek iki araç örneğidir. Bu araçlarla, bir kişi farklı veri yollarını izleyebilir ve denetleyebilir ve mevcut bant genişliği ile veri boru hatlarını dinamik olarak ayarlayabilir. Bu araçlar, müşteri davranışının keşfedilmesine, ödeme takibine, fiyatlandırmaya, küçülme analizine, tüketici geri bildirimine ve daha fazlasına olanak tanır. Bu araçlar ayrıca kuruluşların tedarik zincirlerini, envanter kontrolünü, müşteri desteğini, satıcı puan kartlarını vb. optimize etmesine olanak tanır.

2010'da IBM, "akış analitiği" kullanarak kritik içgörüleri önemli ölçüde daha hızlı sağlamak için Columbia Üniversitesi'ne katıldı. Tıp uzmanları başardılar 200'den fazla değişkenle verileri analiz edin ve daha erken teşhislere yol açan kalıpları belirleyin. Bu, IBM Streams adlı Hadoop için bir araştırma aracına dönüştü.

2017 yılında Hortonworks şunları ifade etti:
Hortonworks Data Flow'un piyasaya sürülmesiyle bir paradigma kayması. Jaime Engesser, Başkan Yardımcısı
ürün yönetiminin bir parçası olarak, “Hortonworks 'Hadoop yapıyoruz'dan 'Biz
bağlı veri mimarileri yapın.' Akış analizi alanına bakarsanız,
şimdi ikiye katladığımız yer orası.” (Hortonworks Veri Akışı hala bir
açık kaynak aracıdır, ancak daha esnektir.)

Açık kaynaklı Hortonworks Akış Analizi Yöneticisi (2017), sürükle ve bırak görsellerinin kullanımıyla akış analizi uygulamalarını tasarlamak, geliştirmek ve yönetmek için kullanılan bir araçtır. Kullanıcılar, uyarılar/bildirimler, olay bağıntısı, karmaşık kalıp eşleştirme, bağlam zenginleştirme ve analitik toplamalar oluşturabilen akış analizi uygulamaları oluşturabilir. Analitik Yöneticisi, tahmine dayalı ve kuralcı analitiği ve kalıp eşleştirmeyi kullanarak anında içgörüler sunar. Akış analizi uygulamaları, herhangi bir kod yazmak zorunda kalmadan dakikalar içinde oluşturulabilir ve kullanılabilir.

Apache Hadoop Başkan Yardımcısı Vinod Kumar Vavilapalli şunları söyledi:

"Apache Hadoop topluluğu, Büyük Veri'de yeniliği daha da ileriye taşımak için güçlenmeye devam ediyor. Geliştiricilerin, operatörlerin ve kullanıcıların veri yönetimi ihtiyaçlarını karşılamada en son sürümümüzden yararlanmasını umuyoruz.”

Shutterstock.com lisansı altında kullanılan görsel

Coinsmart. Europa İçindeki En İyi Bitcoin-Börse
Kaynak: https://www.dataversity.net/a-brief-history-of-the-hadoop-ecosystem/

spot_img

En Son İstihbarat

spot_img