Zephyrnet Logosu

Azure Databricks Not Defterine Giriş

Tarih:

Bu makale, Veri Bilimi Blogathon.

Databricks'e Giriş

Merhaba teknisyenler, bu makalenin, Azure Databricks not defterinde veriyle ilgili işlemleri gerçekleştirmek için nasıl kullanılacağını anlamanıza yardımcı olacağından eminim. Hadi gidelim!

veri tuğlaları

Databricks Veri Bilimi ve Mühendisliği (bazen basitçe "" olarak da adlandırılır)çalışma alanı“), Apache Spark'ı temel alan bir analiz platformudur. İle entegredir masmavi, AWS ve GCP tek tıklamayla kurulum, kolaylaştırılmış iş akışları ve veri mühendisleri, veri bilimcileri ve makine öğrenimi mühendisleri arasında işbirliğine olanak tanıyan etkileşimli bir çalışma alanı sağlamak.

Azure Databricks, Microsoft Azure bulut hizmetleri platformu için optimize edilmiş bir veri analizi platformudur. Azure Databricks, veri yoğunluklu uygulamalar geliştirmek için iki ortam sunar:  Databricks Veri Bilimi ve Mühendisliği, ve Databricks Makine Öğrenimi. Azure, Databricks'in birinci taraf hizmet sağlayıcısıdır (yani, databricks'e yönelik tüm destek hizmetleri Azure tarafından kendi bulutunda sağlanacaktır). Databricks çalışma alanını aşağıda görebilirsiniz: -

 

Azure Databricks Hizmeti Oluşturma Adımları

Ön Koşul

En azından bir Azure ücretsiz katman aboneliğine sahip olmanız gerekir.

1 Adım: – Azure portalını açın (portal.azure.com)

Azure Databricks Hizmeti| Aşama 1

2. Adım: - Databricks hizmetini oluşturmak için “Kaynak Oluştur” simgesine tıklamanız gerekir.

Azure Databricks Hizmeti| Aşama 2

 2.1. Adım: - Şimdi ara “Azure Veri Tuğlaları” hizmeti ve ardından oluştur düğmesi seçeneğini tıklayın.

Azure Databricks Hizmeti| Aşama 2.1

2.2. Adım: - Şimdi proje ayrıntıları bölümünde hizmet oluşturmak için gereken ayrıntıları doldurun.

  • uygun olanı seçin abone Açılır menüden benim için ücretsiz deneme sürümünü kullanıyorum, bu nedenle sağlanan varsayılan seçeneği seçeceğim.
  • Şimdi bir tane oluşturmanız gerekiyor kaynak grubu, açılır seçeneklerden birini seçmediyseniz yeni oluştur'u tıklamanız yeterlidir.
  • Şimdi doldurmanız gerekiyor Örnek Ayrıntıları bölümler aşağıda verilmiştir
  • Çalışma alanı adı:- çalışma alanınızın adını girin
  • Bölge:- size uygun bölgeyi seçin. Varsayılan olanı seçeceğim.
  • Fiyatlandırma Katmanı:- Standart olanı seçeceğim.
Azure Databricks Hizmeti| Aşama 2.2

2.3. Adım: - Şimdi diğer şeyleri varsayılan olarak tutacağım ve Ağ İletişimi, Gelişmiş ve Etiket bölümlerinde ileri seçeneğine tıklayacağım.

2.4. Adım: -  Son olarak, “İncele + Oluştur” düğmesine basın.

adım 2.5:- Mesaj bir kez “Doğrulama geçti” is görüntülenen, tıkla "oluşturmak" düğmesine basın.

Azure Databricks Hizmeti| Aşama 2.5

adım 2.6: - Şimdi hizmete git'e tıklayın; masmavi databricks hizmet sayfanıza yönlendirileceksiniz, tıklayın “Çalışma Alanını Başlat”  ve çalışma alanınıza yönlendirileceksiniz.

Azure Databricks Hizmeti| Aşama 2.6

Artık masmavi databricks hizmetimiz oluşturuldu. Dizüstü bilgisayarı çalıştırmak için bir küme oluşturmanın zamanı geldi. Haydi yaratalım…

Databricks'te Küme Oluşturma

Adım 1:- Veri tuğlaları sağlama menü seçeneklerinden bir küme oluşturmak için “Hesapla”ya tıklayın.

Databricks Adım 1'de küme oluşturma

Adım 2:- Bilgi işlem sayfasına yönlendirileceksiniz, burada 2 tür küme oluşturma seçeneği göreceksiniz, biri “Çok amaçlı kümeler” ve diğeri “İş kümesi”.

  • Çok Amaçlı küme: - Onlar Not defterleri kullanılarak veri analizi için kullanılır ve not defterleri kullanılarak veri alımı ve dönüştürme çalışmaları gerçekleştirilir.
  • İş kümesi: - Not defterlerinin içinde yazılan işlemleri gerçekleştirmek için not defterlerinin işini yürütmek veya zamanlama amacıyla kullanılırlar.
Databricks Adım 2'de küme oluşturma

Burada Çok amaçlı kümeler oluşturacağız, şimdi küme oluştur butonuna tıklayın.

Adım 3:- Şimdi yeni küme oluşturma sayfasına taşınacaksınız. Burada aşağıdaki ayrıntıları ayarlamanız gerekecek: -

  • Küme adı: - Kümenize vermek istediğiniz adı seçin. “Blogdemocls” verdim.
  • Küme modu: - Burada üç seçenek göreceksiniz “Yüksek Eşzamanlılık”, "Standart" ve “Tek düğüm”. Şu anda ücretsiz seviyedeyim bu yüzden seçeceğim “Tek düğüm”. Bilgisayar gereksinimlerinize göre diğer seçenekleri seçebilirsiniz.
  • Databricks Çalışma Zamanı sürümü: - Bunda size Scala ve Spark'ın farklı çalışma zamanı sürümleri sağlanacaktır. Bunda LTS(Uzun Süreli Destek) seçeneği olan son sürümü seçeceğim. Gereksinimlerinize göre seçim yapabilirsiniz.
  • Otomatik pilot seçenekleri: - Burada hareketsizlik süresini tanımlayabilirsiniz. Küme, tanımlanan eylemsizlik süresi boyunca boşta kalırsa durdurulur.
  • Not: - Başka bir küme modunu seçerseniz, "Çalışan türü" ve "Sürücü türü" olmak üzere iki seçeneğe daha sahip olursunuz. Ancak şu anda ücretsiz aşamada olduğumuz için bu iki seçenek bizim için devre dışı bırakıldı.
  • Düğüm türü: - Burada, verilerinizi işlemek için ihtiyaç duyduğunuz makinenizin konfigürasyonunu tanımlayacaksınız. Ne kadar belleğe ve çekirdeğe ihtiyacınız olduğu gibi. İhtiyacınız hesaplama, hafıza veya depolama amaçlı olsun, birçok seçeneğe sahip olacaksınız, bunlardan birini seçebilirsiniz. Bu durumda bir tane seçeceğiz Genel amaçlı, 4 GB Bellekli ve 4 Çekirdekli Standart D16a_v4 makinesi. Bu makineyi Genel amaçlı kategorisinde bulabilir ve ardından daha fazla seçeneğe tıklayabilirsiniz.
  • Şimdi Küme Oluştur düğmesine tıklayın ve oluşturulmasını bekleyin. Şimdi oluşturulduğunda başlat düğmesine tıklayın ve 3 ila 5 dakika içinde başlayacaktır.
Databricks Adım 3'de küme oluşturma
Databricks Adım 4'de küme oluşturma

 

Defter Oluşturma

Artık kümemiz çalışıyor ve ilk databricks not defterimizi oluşturacağız.

Adım 1:- Çalışma alanına gidin ve üzerine tıklayın ve ardından çalışma alanındaki açılır oka tıklayın ve tüm not defterlerini içinde tutmak için yeni bir klasör oluşturun. Bu klasörü “inshortsnews” olarak adlandıracağız.

Defter Oluşturma| Aşama 1

Adım 2:- Şimdi "inshortsnews" klasörü açılır okuna tıklayın, oluştur'a tıklayın ve ardından not defterine tıklayın.

Defter Oluşturma| Aşama 2

Adım 2.1:- Şimdi not defteri oluşturmayla ilgili tüm ayrıntıları sağlayın: , isim Not defterimize “inshorts-news-data-scrapping” ismini veriyorum. varsayılan dil, “Python”u seçeceğiz. İsterseniz projeniz için varsayılan dil olarak R, Scala ve SQL arasında da seçim yapabilirsiniz.

Defter Oluşturma| Aşama 2.1

Adım 2.2:- Oluştur'a tıkladığınızda not defteri sağlanan dille oluşturulur.

Inshorts Haberleri

Şimdi python, pandas ve diğer kütüphaneleri kullanarak Inshorts haber web uygulamasından haber verilerini kazıyacağız.

şort haber makalelerini 60 kelimeyle özetleyen ve teknoloji, iş dünyası ve videolar, infografikler ve bloglar gibi diğer içerikler de dahil olmak üzere çok çeşitli konuları kapsayan bir toplayıcı uygulamadır. Aşağıdaki resimde dikdörtgen kutuların içindeki verileri kazıyacağız.

Inshorts Haberleri

Bunda makalenin içeriğini kazıyacağız haber Başlıkları, haber içerikleri, Ve haber makaleleri kategorisi.

  • Haber Başlığı:- Haberin genel özetini içeren tek satırlık cümledir.
  • haber Madde:- Çok satırlı bir cümledir ve 60 kelimelik haberle ilgili tüm bilgileri içerir.
  • Haber Kategorisi:- Haberin kategorisini belirtir.

Örnek E-posta

  • news_headline:- Musk'un Boring Company'si Las Vegas döngü istasyonuna kısa bir bakış paylaşıyor.
  • news_article:- The Boring Company, Twitter'da şirketin Las Vegas Kongre Merkezi (LVCC) döngüsünün bir parçası olarak inşa ettiği metro istasyonlarından birini gösteren kısa bir klip paylaştı. Eylül ayında Kurucu Elon Musk, Vegas'ın altındaki ilk operasyonel tünelin neredeyse tamamlandığını söyledi. "Kendi kendine giden elektrikli arabalarla şehirlerin altındaki tüneller, warp sürücüsü gibi hissedecek" diye ekledi.
  • new_category:- Teknoloji

Makaleler birçok kategoride sınıflandırıldı ancak yalnızca 7 farklı kategoriyi ele alacağız ve bunlar aşağıdaki gibidir: - technology, sports, politics, entertainment, world, automobile ve science.

Kodlamaya Başlayalım

Bu verileri toplamak için aşağıdaki kütüphaneleri kullandım requests, BeautifulSoup4, ve pandas. Bu kütüphaneleri kullanabilmek için öncelikle onları not defterimize kurmamız gerekiyor. Sadece yüklememiz gerekiyor Güzel çorba lib ve geri kalan ikisi zaten not defterimizle birlikte verilmektedir.

Adım 1:- Kütüphaneleri databricks not defterlerine kurmak için aşağıdaki yöntemi kullanırız: -

Kodlamaya Başlayalım| Aşama 1

Adım 2:- Şimdi gerekli tüm kütüphaneleri içe aktarın

Kodlamaya Başlayalım| Aşama 2

Adım 3:- Şimdi verileri kazımak istediğimiz her kategori için uç noktaları tanımlayın.

Kodlamaya Başlayalım| Aşama 3

Adım 04:- Şimdi yukarıda tanımladığımız “URL’lerin” her biri için istek göndereceğiz ve ardından yanıt verilerini güzelleştireceğiz. Daha sonra yanıt verilerinden tüm haber başlıklarını ve yeni içeriği bulmak için liste anlayışını kullandık. Haber kategorisini almak için URL'leri de böldük.

Kodlamaya Başlayalım| Aşama 4

Adım 05:- Inshorts haber web uygulamasından topladığımız verilerin sözlüğünden veri çerçevesini oluşturun.

Kodlamaya Başlayalım| Aşama 5

Üvey 06:– Şimdi kazıdığımız verileri görüntüleyin.

Kodlamaya Başlayalım| Aşama 6

 

Son kod için lütfen buraya Tıkla.

Sonuç

Şerefe!!! kılavuzun sonuna ulaşma ve Azure Databricks hakkında oldukça ilginç şeyler öğrenme konusunda. Bu kılavuzdan, masmavi bulutta databricks hizmetlerinin nasıl başlatılacağını başarıyla öğrendiniz. Bununla birlikte, veri tuğlalarında not defterleri için nasıl kümeler oluşturulacağını ve python ve pandalar kullanılarak veri kazımanın temellerini de öğrendiniz.

Şimdi bir sonraki makalede A'yı keşfedeceğizzure Data Lake Storage 2. Nesil (ADLS 2. Nesil)ADLS gen2 depolama hizmetlerinin nasıl oluşturulacağı ve bununla birlikte not defterimizi saatlik olarak planlayarak kazınmış verilerimizi bu depolama hesabına kaydedeceğiz. Azure Veri Fabrikası (ADF) yöntemler. Bunu yaparak NLP görevleri için kendi metinsel veri setimizi oluşturuyoruz.

Benimle bağlantı kurmaktan çekinmeyin LinkedIn ve Github Veri Mühendisliği ve Makine Öğrenimi hakkında daha fazla içerik için!

Mutlu Öğrenme!!!

 Bu makalede gösterilen medya Analytics Vidhya'ya ait değildir ve Yazarın takdirine bağlı olarak kullanılır.

spot_img

En Son İstihbarat

spot_img