Zephyrnet Logo

7 etapas para dominar a engenharia de dados – KDnuggets

Data:

7 etapas para dominar a engenharia de dados
Imagem do autor
 

Engenharia de dados refere-se ao processo de criação e manutenção de estruturas e sistemas que coletam, armazenam e transformam dados em um formato que pode ser facilmente analisado e usado por cientistas de dados, analistas e partes interessadas de negócios. Este roteiro irá guiá-lo no domínio de vários conceitos e ferramentas, permitindo que você construa e execute com eficácia diferentes tipos de pipelines de dados.

A conteinerização permite que os desenvolvedores empacotem seus aplicativos e dependências em contêineres leves e portáteis que podem ser executados de forma consistente em diferentes ambientes. Infraestrutura como código, por outro lado, é a prática de gerenciar e provisionar infraestrutura por meio de código, permitindo que os desenvolvedores definam, versionem e automatizem a infraestrutura em nuvem.

Na primeira etapa, você conhecerá os fundamentos da sintaxe SQL, dos contêineres Docker e do banco de dados Postgres. Você aprenderá como iniciar um servidor de banco de dados usando Docker localmente, bem como criar um pipeline de dados no Docker. Além disso, você desenvolverá uma compreensão do Google Cloud Provider (GCP) e do Terraform. O Terraform será particularmente útil para você implantar suas ferramentas, bancos de dados e estruturas na nuvem.

A orquestração do fluxo de trabalho gerencia e automatiza o fluxo de dados por meio de vários estágios de processamento, como ingestão, limpeza, transformação e análise de dados. É uma maneira mais eficiente, confiável e escalonável de fazer as coisas.

Na segunda etapa, você aprenderá sobre ferramentas de orquestração de dados como Airflow, Mage ou Prefect. Todos eles são de código aberto e vêm com vários recursos essenciais para observar, gerenciar, implantar e executar pipeline de dados. Você aprenderá a configurar o Prefect usando Docker e a construir um pipeline ETL usando Postgres, Google Cloud Storage (GCS) e APIs BigQuery. 

Confira o 5 alternativas de fluxo de ar para orquestração de dados e escolha aquele que funciona melhor para você.

Data warehousing é o processo de coleta, armazenamento e gerenciamento de grandes quantidades de dados de diversas fontes em um repositório centralizado, facilitando a análise e a extração de insights valiosos.

Na terceira etapa, você aprenderá tudo sobre o data warehouse Postgres (local) ou BigQuery (nuvem). Você aprenderá sobre os conceitos de particionamento e clustering e se aprofundará nas práticas recomendadas do BigQuery. O BigQuery também oferece integração de aprendizado de máquina, onde você pode treinar modelos em grandes volumes de dados, ajuste de hiperparâmetros, pré-processamento de recursos e implantação de modelos. É como SQL para aprendizado de máquina.

Analytics Engineering é uma disciplina especializada que se concentra no design, desenvolvimento e manutenção de modelos de dados e pipelines analíticos para equipes de business intelligence e ciência de dados. 

Na quarta etapa, você aprenderá como construir um pipeline analítico usando dbt (Data Build Tool) com um data warehouse existente, como BigQuery ou PostgreSQL. Você obterá uma compreensão dos principais conceitos, como ETL vs ELT, bem como modelagem de dados. Você também aprenderá recursos avançados de dbt, como modelos incrementais, tags, ganchos e instantâneos. 

Ao final, você aprenderá a usar ferramentas de visualização como Google Data Studio e Metabase para criar painéis interativos e relatórios de análise de dados.

O processamento em lote é uma técnica de engenharia de dados que envolve o processamento de grandes volumes de dados em lotes (a cada minuto, hora ou até mesmo dias), em vez de processar dados em tempo real ou quase em tempo real. 

Na quinta etapa de sua jornada de aprendizado, você será apresentado ao processamento em lote com Apache Spark. Você aprenderá como instalá-lo em vários sistemas operacionais, trabalhar com Spark SQL e DataFrames, preparar dados, executar operações SQL e obter uma compreensão dos componentes internos do Spark. No final desta etapa, você também aprenderá como iniciar instâncias do Spark na nuvem e integrá-las ao data warehouse BigQuery.

Streaming refere-se à coleta, processamento e análise de dados em tempo real ou quase em tempo real. Ao contrário do processamento em lote tradicional, onde os dados são coletados e processados ​​em intervalos regulares, o processamento de dados por streaming permite a análise contínua das informações mais atualizadas.

Na sexta etapa, você aprenderá sobre streaming de dados com Apache Kafka. Comece com o básico e depois mergulhe na integração com o Confluent Cloud e em aplicações práticas que envolvem produtores e consumidores. Além disso, você precisará aprender sobre junções de fluxo, testes, janelas e o uso do Kafka ksqldb & Connect. 

Se desejar explorar diferentes ferramentas para vários processos de engenharia de dados, você pode consultar 14 ferramentas essenciais de engenharia de dados para usar em 2024.

Na etapa final, você usará todos os conceitos e ferramentas que aprendeu nas etapas anteriores para criar um projeto abrangente de engenharia de dados de ponta a ponta. Isso envolverá a construção de um pipeline para processar os dados, armazenar os dados em um data lake, criar um pipeline para transferir os dados processados ​​do data lake para um data warehouse, transformar os dados no data warehouse e prepará-los para o painel . Por fim, você construirá um painel que apresente os dados visualmente.

Todas as etapas mencionadas neste guia podem ser encontradas no Engenharia de Dados ZoomCamp. Este ZoomCamp consiste em vários módulos, cada um contendo tutoriais, vídeos, perguntas e projetos para ajudá-lo a aprender e construir pipelines de dados. 

Neste roteiro de engenharia de dados, aprendemos as várias etapas necessárias para aprender, construir e executar pipelines de dados para processamento, análise e modelagem de dados. Também aprendemos sobre aplicativos e ferramentas em nuvem, bem como sobre ferramentas locais. Você pode optar por construir tudo localmente ou usar a nuvem para facilitar o uso. Eu recomendaria usar a nuvem, pois a maioria das empresas prefere e deseja que você ganhe experiência em plataformas de nuvem como o GCP.
 
 

Abid Ali Awan (@ 1abidaliawan) é um profissional certificado em ciência de dados que adora criar modelos de aprendizado de máquina. Atualmente, ele está se concentrando na criação de conteúdo e escrevendo blogs técnicos sobre tecnologias de aprendizado de máquina e ciência de dados. Abid possui mestrado em gestão de tecnologia e bacharelado em engenharia de telecomunicações. Sua visão é construir um produto de IA usando uma rede neural gráfica para estudantes que sofrem de doenças mentais.

local_img

Inteligência mais recente

local_img