제퍼넷 로고

데이터 엔지니어링을 마스터하는 7단계 – KDnuggets

시간

데이터 엔지니어링을 마스터하는 7단계
작성자 별 이미지
 

데이터 엔지니어링은 데이터 과학자, 분석가, 비즈니스 이해관계자가 쉽게 분석하고 사용할 수 있는 형식으로 데이터를 수집, 저장 및 변환하는 구조와 시스템을 만들고 유지 관리하는 프로세스를 말합니다. 이 로드맵은 다양한 개념과 도구를 익히는 과정을 안내하여 다양한 유형의 데이터 파이프라인을 효과적으로 구축하고 실행할 수 있도록 해줍니다.

컨테이너화를 통해 개발자는 애플리케이션과 종속성을 다양한 환경에서 일관되게 실행할 수 있는 가볍고 이식 가능한 컨테이너로 패키징할 수 있습니다. 반면, 코드형 인프라(Infrastructure as Code)는 코드를 통해 인프라를 관리하고 프로비저닝하여 개발자가 클라우드 인프라를 정의, 버전화 및 자동화할 수 있도록 하는 방식입니다.

첫 번째 단계에서는 SQL 구문, Docker 컨테이너 및 Postgres 데이터베이스의 기본 사항을 소개합니다. Docker를 사용하여 로컬에서 데이터베이스 서버를 시작하는 방법과 Docker에서 데이터 파이프라인을 생성하는 방법을 알아봅니다. 또한 GCP(Google Cloud Provider) 및 Terraform에 대한 이해도를 높이게 됩니다. Terraform은 도구, 데이터베이스 및 프레임워크를 클라우드에 배포하는 데 특히 유용합니다.

워크플로 조정은 데이터 수집, 정리, 변환, 분석 등 다양한 처리 단계를 통해 데이터 흐름을 관리하고 자동화합니다. 이는 작업을 수행하는 보다 효율적이고 안정적이며 확장 가능한 방법입니다.

두 번째 단계에서는 Airflow, Mage 또는 Prefect와 같은 데이터 조정 도구에 대해 알아봅니다. 모두 오픈 소스이며 데이터 파이프라인을 관찰, 관리, 배포 및 실행하기 위한 여러 필수 기능이 함께 제공됩니다. Docker를 사용하여 Prefect를 설정하고 Postgres, Google Cloud Storage(GCS) 및 BigQuery API를 사용하여 ETL 파이프라인을 구축하는 방법을 배웁니다. 

확인 데이터 오케스트레이션을 위한 5가지 공기 흐름 대안 그리고 당신에게 더 잘 맞는 것을 선택하세요.

데이터 웨어하우징은 다양한 소스의 대량 데이터를 중앙 저장소에 수집, 저장, 관리하는 프로세스로, 이를 통해 귀중한 통찰력을 더 쉽게 분석하고 추출할 수 있습니다.

세 번째 단계에서는 Postgres(로컬) 또는 BigQuery(클라우드) 데이터 웨어하우스에 대한 모든 것을 알아봅니다. 파티션 나누기와 클러스터링의 개념을 알아보고 BigQuery의 권장사항을 자세히 알아보세요. BigQuery는 또한 대규모 데이터, 초매개변수 조정, 특성 사전 처리, 모델 배포에 대한 모델을 학습할 수 있는 머신러닝 통합을 제공합니다. 머신러닝의 SQL과 같습니다.

분석 엔지니어링은 비즈니스 인텔리전스 및 데이터 과학 팀을 위한 데이터 모델 및 분석 파이프라인의 설계, 개발 및 유지 관리에 중점을 두는 전문 분야입니다. 

네 번째 단계에서는 BigQuery 또는 PostgreSQL과 같은 기존 데이터 웨어하우스와 함께 dbt(Data Build Tool)를 사용하여 분석 파이프라인을 구축하는 방법을 알아봅니다. ETL과 ELT, 데이터 모델링과 같은 주요 개념을 이해하게 됩니다. 또한 증분 모델, 태그, 후크 및 스냅샷과 같은 고급 DBT 기능도 학습합니다. 

마지막에는 Google Data Studio 및 Metabase와 같은 시각화 도구를 사용하여 대화형 대시보드 및 데이터 분석 보고서를 만드는 방법을 배우게 됩니다.

일괄 처리는 실시간 또는 거의 실시간으로 데이터를 처리하는 대신 대량의 데이터를 일괄(매분, 시간 또는 일 단위)로 처리하는 데이터 엔지니어링 기술입니다. 

학습 여정의 다섯 번째 단계에서는 Apache Spark를 사용한 일괄 처리를 소개합니다. 다양한 운영 체제에 설치하고, Spark SQL 및 DataFrames로 작업하고, 데이터를 준비하고, SQL 작업을 수행하고, Spark 내부를 이해하는 방법을 배우게 됩니다. 이 단계가 끝나면 클라우드에서 Spark 인스턴스를 시작하고 이를 데이터 웨어하우스 BigQuery와 통합하는 방법도 배우게 됩니다.

스트리밍은 실시간 또는 거의 실시간으로 데이터를 수집, 처리 및 분석하는 것을 의미합니다. 정기적으로 데이터를 수집하고 처리하는 기존 일괄 처리와 달리 스트리밍 데이터 처리를 통해 최신 정보를 지속적으로 분석할 수 있습니다.

여섯 번째 단계에서는 Apache Kafka를 사용한 데이터 스트리밍에 대해 알아봅니다. 기본부터 시작한 다음 Confluent Cloud 및 생산자와 소비자가 관련된 실용적인 애플리케이션과의 통합에 대해 자세히 알아보세요. 또한 스트림 조인, 테스트, 창 작업, Kafka ksqldb 및 Connect 사용에 대해 배워야 합니다. 

다양한 데이터 엔지니어링 프로세스를 위한 다양한 도구를 살펴보고 싶다면 다음을 참조하세요. 14년에 사용할 2024가지 필수 데이터 엔지니어링 도구.

마지막 단계에서는 이전 단계에서 배운 모든 개념과 도구를 사용하여 포괄적인 엔드투엔드 데이터 엔지니어링 프로젝트를 만듭니다. 여기에는 데이터 처리를 위한 파이프라인 구축, 데이터 레이크에 데이터 저장, 처리된 데이터를 데이터 레이크에서 데이터 웨어하우스로 전송하기 위한 파이프라인 생성, 데이터 웨어하우스의 데이터 변환 및 대시보드용 준비가 포함됩니다. . 마지막으로 데이터를 시각적으로 표시하는 대시보드를 구축합니다.

이 가이드에 언급된 모든 단계는 다음에서 찾을 수 있습니다. 데이터 엔지니어링 ZoomCamp. 이 ZoomCamp는 데이터 파이프라인을 배우고 구축하는 데 도움이 되는 튜토리얼, 비디오, 질문 및 프로젝트가 포함된 여러 모듈로 구성됩니다. 

이 데이터 엔지니어링 로드맵에서 우리는 데이터 처리, 분석, 모델링을 위한 데이터 파이프라인을 배우고, 구축하고, 실행하는 데 필요한 다양한 단계를 배웠습니다. 또한 클라우드 애플리케이션과 도구는 물론 로컬 도구에 대해서도 배웠습니다. 모든 것을 로컬에서 구축하거나 사용 편의성을 위해 클라우드를 사용하도록 선택할 수 있습니다. 대부분의 회사에서 클라우드를 선호하고 GCP와 같은 클라우드 플랫폼에 대한 경험을 쌓기를 원하기 때문에 클라우드를 사용하는 것이 좋습니다.
 
 

아비드 알리 아완 (@1abidaliawan)는 기계 학습 모델 구축을 좋아하는 공인 데이터 과학자 전문가입니다. 현재 그는 콘텐츠 제작에 집중하고 있으며 기계 학습 및 데이터 과학 기술에 대한 기술 블로그를 작성하고 있습니다. Abid는 기술 관리 석사 학위와 통신 공학 학사 학위를 보유하고 있습니다. 그의 비전은 정신 질환으로 어려움을 겪고 있는 학생들을 위해 그래프 신경망을 사용하여 AI 제품을 구축하는 것입니다.

spot_img

최신 인텔리전스

spot_img