Logo Zephyrnet

7 kroków do opanowania inżynierii danych – KDnuggets

Data:

7 kroków do opanowania inżynierii danych
Zdjęcie autora
 

Inżynieria danych odnosi się do procesu tworzenia i utrzymywania struktur i systemów, które gromadzą, przechowują i przekształcają dane do formatu, który może być łatwo analizowany i wykorzystywany przez analityków danych, analityków i interesariuszy biznesowych. Ten plan działania poprowadzi Cię przez opanowanie różnych koncepcji i narzędzi, umożliwiając efektywne budowanie i wykonywanie różnych typów potoków danych.

Konteneryzacja umożliwia programistom pakowanie aplikacji i zależności w lekkie, przenośne kontenery, które mogą działać spójnie w różnych środowiskach. Z drugiej strony Infrastructure as Code to praktyka zarządzania infrastrukturą i udostępniania jej za pomocą kodu, umożliwiając programistom definiowanie, wersjonowanie i automatyzowanie infrastruktury chmury.

W pierwszym kroku zapoznasz się z podstawami składni SQL, kontenerami Docker i bazą danych Postgres. Dowiesz się, jak zainicjować serwer bazy danych lokalnie przy użyciu Dockera, a także jak utworzyć potok danych w Dockerze. Ponadto rozwiniesz wiedzę na temat Google Cloud Provider (GCP) i Terraform. Terraform będzie dla Ciebie szczególnie przydatny przy wdrażaniu narzędzi, baz danych i frameworków w chmurze.

Orkiestracja przepływu pracy zarządza i automatyzuje przepływ danych przez różne etapy przetwarzania, takie jak pozyskiwanie danych, czyszczenie, transformacja i analiza. Jest to bardziej wydajny, niezawodny i skalowalny sposób działania.

W drugim kroku poznasz narzędzia do orkiestracji danych, takie jak Airflow, Mage czy Prefect. Wszystkie są open source i zawierają wiele niezbędnych funkcji do obserwacji, zarządzania, wdrażania i wykonywania potoku danych. Dowiesz się, jak skonfigurować Prefect przy użyciu Dockera i zbudować potok ETL przy użyciu Postgres, Google Cloud Storage (GCS) i interfejsów API BigQuery. 

Zapoznaj się z 5 alternatyw przepływu powietrza dla orkiestracji danych i wybierz ten, który będzie dla Ciebie lepszy.

Hurtownia danych to proces gromadzenia, przechowywania i zarządzania dużymi ilościami danych z różnych źródeł w scentralizowanym repozytorium, co ułatwia analizowanie i wydobywanie cennych spostrzeżeń.

W trzecim kroku dowiesz się wszystkiego o hurtowni danych Postgres (lokalna) lub BigQuery (w chmurze). Poznasz pojęcia partycjonowania i grupowania oraz poznasz najlepsze praktyki BigQuery. BigQuery zapewnia także integrację systemów uczących się, dzięki której możesz trenować modele na dużych danych, dostrajać hiperparametry, wstępnie przetwarzać funkcje i wdrażać modele. To jest jak SQL w uczeniu maszynowym.

Inżynieria analityczna to wyspecjalizowana dyscyplina, która koncentruje się na projektowaniu, opracowywaniu i utrzymywaniu modeli danych i potoków analitycznych dla zespołów analityki biznesowej i analityki danych. 

W czwartym kroku dowiesz się jak zbudować potok analityczny za pomocą dbt (Data Build Tool) z istniejącą hurtownią danych, taką jak BigQuery czy PostgreSQL. Zrozumiesz kluczowe pojęcia, takie jak ETL vs ELT, a także modelowanie danych. Poznasz także zaawansowane funkcje dbt, takie jak modele przyrostowe, znaczniki, hooki i migawki. 

Na koniec nauczysz się korzystać z narzędzi do wizualizacji, takich jak Google Data Studio i Metabase, do tworzenia interaktywnych dashboardów i raportów analitycznych.

Przetwarzanie wsadowe to technika inżynierii danych, która polega na przetwarzaniu dużych ilości danych partiami (co minutę, godzinę, a nawet dni), a nie przetwarzaniu danych w czasie rzeczywistym lub w czasie zbliżonym do rzeczywistego. 

W piątym kroku Twojej ścieżki edukacyjnej zapoznasz się z przetwarzaniem wsadowym za pomocą Apache Spark. Dowiesz się, jak zainstalować go na różnych systemach operacyjnych, pracować ze Spark SQL i DataFrames, przygotowywać dane, wykonywać operacje SQL i zyskać zrozumienie wewnętrznych elementów Spark. Pod koniec tego kroku dowiesz się także jak uruchomić instancje Spark w chmurze i zintegrować je z hurtownią danych BigQuery.

Przesyłanie strumieniowe odnosi się do gromadzenia, przetwarzania i analizy danych w czasie rzeczywistym lub w czasie zbliżonym do rzeczywistego. W przeciwieństwie do tradycyjnego przetwarzania wsadowego, gdzie dane są gromadzone i przetwarzane w regularnych odstępach czasu, przetwarzanie strumieniowe danych pozwala na ciągłą analizę najbardziej aktualnych informacji.

W szóstym kroku poznasz możliwości strumieniowania danych za pomocą Apache Kafka. Zacznij od podstaw, a następnie zagłębij się w integrację z Confluent Cloud i praktycznymi aplikacjami angażującymi producentów i konsumentów. Ponadto będziesz musiał dowiedzieć się o łączeniu strumieni, testowaniu, otwieraniu okien i korzystaniu z Kafka ksqldb & Connect. 

Jeśli chcesz poznać różne narzędzia do różnych procesów inżynierii danych, możesz zapoznać się z 14 niezbędnych narzędzi inżynierii danych do wykorzystania w 2024 r.

W ostatnim kroku wykorzystasz wszystkie koncepcje i narzędzia, których nauczyłeś się w poprzednich krokach, aby stworzyć kompleksowy, kompleksowy projekt inżynierii danych. Będzie to obejmować zbudowanie potoku przetwarzania danych, przechowywanie danych w jeziorze danych, utworzenie potoku przesyłania przetworzonych danych z jeziora danych do hurtowni danych, przekształcenie danych w hurtowni danych i przygotowanie ich do dashboardu . Na koniec zbudujesz dashboard, który wizualnie przedstawi dane.

Wszystkie kroki wymienione w tym przewodniku można znaleźć w pliku Inżynieria danych ZoomCamp. Ten ZoomCamp składa się z wielu modułów, z których każdy zawiera samouczki, filmy, pytania i projekty, które pomogą Ci uczyć się i budować potoki danych. 

W tym planie inżynierii danych poznaliśmy różne kroki wymagane do uczenia się, budowania i wykonywania potoków danych na potrzeby przetwarzania, analizy i modelowania danych. Dowiedzieliśmy się także zarówno o aplikacjach i narzędziach chmurowych, jak i narzędziach lokalnych. Możesz zbudować wszystko lokalnie lub skorzystać z chmury, aby ułatwić obsługę. Polecam korzystanie z chmury, gdyż większość firm tak woli i chce, abyś zdobył doświadczenie w platformach chmurowych takich jak GCP.
 
 

Abid Ali Awan (@ 1abidaliawan) jest certyfikowanym specjalistą ds. analityki danych, który uwielbia budować modele uczenia maszynowego. Obecnie koncentruje się na tworzeniu treści i pisaniu blogów technicznych na temat technologii uczenia maszynowego i data science. Abid posiada tytuł magistra w zakresie zarządzania technologią oraz tytuł licencjata w dziedzinie inżynierii telekomunikacyjnej. Jego wizją jest zbudowanie produktu AI wykorzystującego grafową sieć neuronową dla uczniów zmagających się z chorobami psychicznymi.

spot_img

Najnowsza inteligencja

spot_img