제퍼넷 로고

전문 데이터 엔지니어가 되기 위해 필요한 유일한 무료 과정 – KDnuggets

시간

전문 데이터 엔지니어가 되기 위해 필요한 유일한 무료 과정
작성자 별 이미지
 

기계 학습 및 데이터 과학에 대한 과정과 리소스는 많지만 데이터 엔지니어링에 대한 내용은 거의 없습니다. 이것은 몇 가지 질문을 제기합니다. 어려운 분야인가요? 낮은 급여를 제공하고 있습니까? 다른 기술 역할만큼 흥미롭지 않나요? 그러나 현실은 많은 기업이 데이터 엔지니어링 인재를 적극적으로 찾고 있으며 때로는 미화 200,000만 달러를 초과하는 상당한 급여를 제공하고 있다는 것입니다. 데이터 엔지니어는 데이터 플랫폼의 설계자로서 중요한 역할을 하며, 데이터 과학자와 기계 학습 전문가가 효과적으로 기능할 수 있도록 지원하는 기본 시스템을 설계하고 구축합니다.

이러한 업계 격차를 해소하기 위해 DataTalkClub은 혁신적인 무료 부트캠프를 도입했습니다.데이터 엔지니어링 Zoomcamp“. 이 과정은 데이터 엔지니어링에 대한 필수 기술과 실무 경험을 바탕으로 경력 전환을 원하는 초보자나 전문가의 역량을 강화하도록 고안되었습니다.

이것은 6주 부트캠프 다양한 강좌, 독서 자료, 워크숍 및 프로젝트를 통해 학습하게 됩니다. 각 모듈이 끝나면 배운 내용을 연습할 수 있는 숙제가 제공됩니다.

  1. 1 주 : GCP, Docker, Postgres, Terraform, 환경 설정 소개
  2. 2 주 : Mage를 사용한 워크플로 조정. 
  3. 3 주 : BigQuery를 사용한 데이터 웨어하우징 및 BigQuery를 사용한 머신러닝. 
  4. 4 주 : dbt, Google Data Studio 및 Metabase를 사용하는 분석 엔지니어입니다.
  5. 5 주 : Spark를 사용한 일괄 처리.
  6. 6 주 : Kafka를 사용한 스트리밍. 

 

전문 데이터 엔지니어가 되기 위해 필요한 유일한 무료 과정
이미지 출처 : DataTalksClub/데이터 엔지니어링-zoomcamp

강의 계획서에는 전문 데이터 엔지니어가 되기 위해 필요한 모든 것을 다루는 6개의 모듈, 2개의 워크샵 및 프로젝트가 포함되어 있습니다.

모듈 1: 컨테이너화 및 인프라를 코드로 마스터하기

이 모듈에서는 기본 사항부터 시작하여 데이터 파이프라인 생성, Docker로 Postgres 실행 등에 대한 자세한 튜토리얼을 통해 Docker 및 Postgres에 대해 학습합니다. 

또한 이 모듈에서는 Docker 네트워킹에 대한 선택적 콘텐츠와 Windows 하위 시스템 Linux 사용자를 위한 특별 연습과 함께 pgAdmin, Docker-compose 및 SQL 새로 고침 주제와 같은 필수 도구를 다룹니다. 마지막으로 이 과정에서는 GCP와 Terraform을 소개하여 최신 클라우드 기반 환경에 필수적인 컨테이너화와 코드로서의 인프라에 대한 전체적인 이해를 제공합니다.

모듈 2: 워크플로 조정 기술

이 모듈에서는 데이터 변환 및 통합을 위한 혁신적인 오픈 소스 하이브리드 프레임워크인 Mage에 대한 심층적인 탐색을 제공합니다. 이 모듈은 워크플로 조정의 기본부터 시작하여 Docker를 통한 설정, API에서 Postgres 및 Google Cloud Storage(GCS), BigQuery로의 ETL 파이프라인 구축을 포함하여 Mage를 사용한 실습으로 진행됩니다. 

이 모듈에는 비디오, 리소스 및 실제 작업이 혼합되어 있어 포괄적인 학습 경험을 보장하고 학습자가 Mage를 사용하여 정교한 데이터 워크플로우를 관리할 수 있는 기술을 갖추도록 합니다.

워크숍 1: 데이터 수집 전략

첫 번째 워크숍에서는 효율적인 데이터 수집 파이프라인 구축을 마스터하게 됩니다. 워크숍에서는 API 및 파일에서 데이터 추출, 데이터 정규화 및 로드, 증분 로드 기술과 같은 필수 기술에 중점을 둡니다. 이 워크숍을 마치면 선임 데이터 엔지니어처럼 효율적인 데이터 파이프라인을 만들 수 있게 됩니다.

모듈 3: 데이터 웨어하우징

이 모듈은 BigQuery를 사용한 데이터 웨어하우징에 중점을 두고 데이터 저장 및 분석을 심층적으로 탐구합니다. 분할 및 클러스터링과 같은 주요 개념을 다루고 BigQuery의 권장사항을 자세히 살펴봅니다. 모듈에서는 특히 머신러닝(ML)과 BigQuery의 통합, ML용 SQL 사용을 강조하고 초매개변수 조정, 기능 사전 처리, 모델 배포에 대한 리소스를 제공하는 등 고급 주제를 다룹니다. 

모듈 4: 분석 엔지니어링

분석 엔지니어링 모듈은 BigQuery 또는 PostgreSQL의 기존 데이터 웨어하우스와 함께 dbt(Data Build Tool)를 사용하여 프로젝트를 구축하는 데 중점을 둡니다. 

이 모듈에서는 클라우드 및 로컬 환경 모두에서 dbt 설정을 다루고 분석 엔지니어링 개념, ETL과 ELT, 데이터 모델링을 소개합니다. 또한 증분 모델, 태그, 후크 및 스냅샷과 같은 고급 DBT 기능도 다룹니다. 

마지막으로 이 모듈에서는 Google Data Studio 및 Metabase와 같은 도구를 사용하여 변환된 데이터를 시각화하는 기술을 소개하고 문제 해결 및 효율적인 데이터 로드를 위한 리소스를 제공합니다.

모듈 5: 일괄 처리 숙련도

이 모듈에서는 Windows, Linux 및 MacOS용 설치 지침과 함께 일괄 처리 및 Spark에 대한 소개부터 시작하여 Apache Spark를 사용한 일괄 처리를 다룹니다. 

여기에는 Spark SQL 및 DataFrame 탐색, 데이터 준비, SQL 작업 수행, Spark 내부 이해가 포함됩니다. 마지막으로 클라우드에서 Spark를 실행하고 Spark를 BigQuery와 통합하는 것으로 마무리됩니다.

모듈 6: Kafka를 사용한 데이터 스트리밍 기술

이 모듈은 스트림 처리 개념 소개로 시작하여 기본 사항, Confluent Cloud와의 통합, 생산자와 소비자가 관련된 실제 애플리케이션을 포함하여 Kafka에 대한 심층적인 탐색이 이어집니다. 

또한 이 모듈에서는 Kafka 구성 및 스트림을 다루며 스트림 조인, 테스트, 창 작업, Kafka ksqldb 및 Connect 사용과 같은 주제를 다룹니다. 또한 Python 스트림 처리용 Faust, Pyspark – 구조적 스트리밍 및 Kafka Streams용 Scala 예제를 포함하여 Python 및 JVM 환경으로 초점을 확장합니다. 

워크숍 2: SQL을 사용한 스트림 처리

스트림 처리 애플리케이션을 강화하기 위해 PostgreSQL 스타일 경험을 갖춘 비용 효율적인 솔루션을 제공하는 RisingWave를 사용하여 스트리밍 데이터를 처리하고 관리하는 방법을 배웁니다.

프로젝트: 실제 데이터 엔지니어링 애플리케이션

이 프로젝트의 목표는 이 과정에서 배운 모든 개념을 구현하여 엔드투엔드 데이터 파이프라인을 구축하는 것입니다. 데이터세트를 선택하고, 데이터를 처리하고 데이터 레이크에 저장하기 위한 파이프라인을 구축하고, 처리된 데이터를 데이터 레이크에서 데이터 웨어하우스로 전송하기 위한 파이프라인을 구축하고, 변환을 통해 두 개의 타일로 구성된 대시보드를 생성하게 됩니다. 데이터 웨어하우스에 있는 데이터를 대시보드용으로 준비하고, 마지막으로 데이터를 시각적으로 표현하기 위한 대시보드를 구축합니다.

2024 코호트 세부정보

사전 조건

  • 기본 코딩 및 명령줄 기술
  • SQL의 기초
  • Python: 유익하지만 필수는 아님

당신의 여행을 이끄는 전문 강사

  • 안쿠시 칸나
  • 빅토리아 페레즈 몰라
  • 알렉세이 그리고레프
  • 매트 팔머
  • 루이스 올리베이라
  • 마이클 슈메이커

2024년 코호트에 참여하고 놀라운 데이터 엔지니어링 커뮤니티에서 학습을 시작해 보세요. 전문가 주도 교육, 실무 경험, 업계 요구에 맞춘 커리큘럼을 갖춘 이 부트캠프는 귀하에게 필요한 기술을 제공할 뿐만 아니라 수익성이 높고 수요가 많은 직업 경로의 최전선에 서게 해줍니다. 지금 등록하고 당신의 열망을 현실로 바꿔보세요!
 
 

아비드 알리 아완 (@1abidaliawan)은 기계 학습 모델 구축을 좋아하는 공인 데이터 과학자 전문가입니다. 현재 그는 콘텐츠 제작에 집중하고 있으며 머신 러닝 및 데이터 과학 기술에 대한 기술 블로그를 작성하고 있습니다. Abid는 기술 관리 석사 학위와 통신 공학 학사 학위를 보유하고 있습니다. 그의 비전은 정신 질환으로 고생하는 학생들을 위해 그래프 신경망을 사용하여 AI 제품을 만드는 것입니다.

spot_img

최신 인텔리전스

spot_img