Logo Zephyrnet

Khóa học miễn phí duy nhất bạn cần để trở thành kỹ sư dữ liệu chuyên nghiệp – KDnuggets

Ngày:

Khóa học miễn phí duy nhất bạn cần để trở thành kỹ sư dữ liệu chuyên nghiệp
Hình ảnh của Tác giả
 

Có rất nhiều khóa học và tài nguyên về học máy và khoa học dữ liệu, nhưng rất ít về kỹ thuật dữ liệu. Điều này đặt ra một số câu hỏi. Đó có phải là một lĩnh vực khó khăn? Nó có trả lương thấp không? Nó không được coi là thú vị như các vai trò công nghệ khác sao? Tuy nhiên, thực tế là nhiều công ty đang tích cực tìm kiếm tài năng kỹ thuật dữ liệu và đưa ra mức lương đáng kể, đôi khi vượt quá 200,000 USD. Kỹ sư dữ liệu đóng vai trò quan trọng với tư cách là kiến ​​trúc sư của nền tảng dữ liệu, thiết kế và xây dựng các hệ thống nền tảng cho phép các nhà khoa học dữ liệu và chuyên gia máy học hoạt động hiệu quả.

Để giải quyết khoảng cách ngành này, DataTalkClub đã giới thiệu một chương trình đào tạo miễn phí và mang tính biến đổi, “Kỹ thuật dữ liệu Zoomcamp“. Khóa học này được thiết kế để trao quyền cho những người mới bắt đầu hoặc những chuyên gia muốn chuyển đổi nghề nghiệp, với các kỹ năng cần thiết và kinh nghiệm thực tế về kỹ thuật dữ liệu.

Đây là một Chương trình đào tạo 6 tuần nơi bạn sẽ học thông qua nhiều khóa học, tài liệu đọc, hội thảo và dự án. Vào cuối mỗi học phần, bạn sẽ được giao bài tập về nhà để thực hành những gì đã học.

  1. Tuần 1: Giới thiệu về thiết lập GCP, Docker, Postgres, Terraform và môi trường.
  2. Tuần 2: Điều phối quy trình làm việc với Mage. 
  3. Tuần 3: Lưu trữ dữ liệu với BigQuery và học máy với BigQuery. 
  4. Tuần 4: Kỹ sư phân tích với dbt, Google Data Studio và Metabase.
  5. Tuần 5: Xử lý hàng loạt với Spark.
  6. Tuần 6: Truyền phát với Kafka. 

 

Khóa học miễn phí duy nhất bạn cần để trở thành kỹ sư dữ liệu chuyên nghiệp
Hình ảnh từ DataTalksClub/data-engineering-zoomcamp

Giáo trình bao gồm 6 mô-đun, 2 hội thảo và một dự án bao gồm mọi thứ cần thiết để trở thành kỹ sư dữ liệu chuyên nghiệp.

Mô-đun 1: Làm chủ cơ sở hạ tầng và container dưới dạng mã

Trong mô-đun này, bạn sẽ tìm hiểu về Docker và Postgres, bắt đầu từ những điều cơ bản và nâng cao thông qua các hướng dẫn chi tiết về cách tạo đường dẫn dữ liệu, chạy Postgres với Docker, v.v. 

Mô-đun này cũng bao gồm các công cụ thiết yếu như pgAdmin, Docker-compose và các chủ đề bồi dưỡng SQL, với nội dung tùy chọn trên mạng Docker và hướng dẫn đặc biệt dành cho người dùng Linux của hệ thống con Windows. Cuối cùng, khóa học giới thiệu cho bạn về GCP và Terraform, cung cấp sự hiểu biết toàn diện về cơ sở hạ tầng và vùng chứa dưới dạng mã, cần thiết cho môi trường dựa trên đám mây hiện đại.

Mô-đun 2: Kỹ thuật điều phối quy trình làm việc

Mô-đun này cung cấp khả năng khám phá chuyên sâu về Mage, một khung kết hợp nguồn mở sáng tạo để chuyển đổi và tích hợp dữ liệu. Mô-đun này bắt đầu với những kiến ​​thức cơ bản về điều phối quy trình làm việc, tiến tới các bài tập thực hành với Mage, bao gồm thiết lập nó thông qua Docker và xây dựng quy trình ETL từ API đến Postgres và Google Cloud Storage (GCS), sau đó vào BigQuery. 

Sự kết hợp giữa video, tài nguyên và nhiệm vụ thực tế của mô-đun này đảm bảo trải nghiệm học tập toàn diện, trang bị cho người học các kỹ năng quản lý quy trình làm việc dữ liệu phức tạp bằng Mage.

Hội thảo 1: Chiến lược nhập dữ liệu

Trong hội thảo đầu tiên, bạn sẽ nắm vững cách xây dựng quy trình nhập dữ liệu hiệu quả. Hội thảo tập trung vào các kỹ năng cần thiết như trích xuất dữ liệu từ API và tệp, chuẩn hóa và tải dữ liệu cũng như các kỹ thuật tải tăng dần. Sau khi hoàn thành hội thảo này, bạn sẽ có thể tạo các đường dẫn dữ liệu hiệu quả như một kỹ sư dữ liệu cấp cao.

Mô-đun 3: Lưu trữ dữ liệu

Mô-đun này là phần khám phá chuyên sâu về lưu trữ và phân tích dữ liệu, tập trung vào Kho dữ liệu bằng BigQuery. Nó bao gồm các khái niệm chính như phân vùng và phân cụm, đồng thời đi sâu vào các phương pháp hay nhất của BigQuery. Mô-đun này tiến tới các chủ đề nâng cao, đặc biệt là tích hợp Machine Learning (ML) với BigQuery, nêu bật việc sử dụng SQL cho ML và cung cấp tài nguyên về điều chỉnh siêu tham số, tiền xử lý tính năng và triển khai mô hình. 

Mô-đun 4: Kỹ thuật phân tích

Mô-đun kỹ thuật phân tích tập trung vào việc xây dựng một dự án bằng dbt (Công cụ xây dựng dữ liệu) với kho dữ liệu hiện có, BigQuery hoặc PostgreSQL. 

Mô-đun này bao gồm việc thiết lập dbt trong cả môi trường đám mây và cục bộ, giới thiệu các khái niệm kỹ thuật phân tích, ETL so với ELT và mô hình hóa dữ liệu. Nó cũng bao gồm các tính năng dbt nâng cao như mô hình gia tăng, thẻ, móc và ảnh chụp nhanh. 

Cuối cùng, mô-đun này giới thiệu các kỹ thuật trực quan hóa dữ liệu đã chuyển đổi bằng các công cụ như Google Data Studio và Metabase, đồng thời cung cấp tài nguyên để khắc phục sự cố và tải dữ liệu hiệu quả.

Mô-đun 5: Thành thạo xử lý hàng loạt

Mô-đun này bao gồm xử lý hàng loạt bằng Apache Spark, bắt đầu bằng phần giới thiệu về xử lý hàng loạt và Spark, cùng với hướng dẫn cài đặt cho Windows, Linux và MacOS. 

Nó bao gồm khám phá Spark SQL và DataFrames, chuẩn bị dữ liệu, thực hiện các thao tác SQL và hiểu nội bộ Spark. Cuối cùng, nó kết thúc bằng việc chạy Spark trên đám mây và tích hợp Spark với BigQuery.

Mô-đun 6: Nghệ thuật truyền dữ liệu với Kafka

Mô-đun này bắt đầu bằng phần giới thiệu về các khái niệm xử lý luồng, sau đó là tìm hiểu sâu về Kafka, bao gồm các nguyên tắc cơ bản của nó, tích hợp với Confluent Cloud và các ứng dụng thực tế liên quan đến nhà sản xuất và người tiêu dùng. 

Mô-đun này cũng đề cập đến cấu hình và luồng của Kafka, giải quyết các chủ đề như nối luồng, kiểm tra, tạo cửa sổ và cách sử dụng Kafka ksqldb & Connect. Ngoài ra, nó mở rộng trọng tâm sang môi trường Python và JVM, bao gồm Faust để xử lý luồng Python, Pyspark – Truyền phát có cấu trúc và các ví dụ Scala cho Luồng Kafka. 

Hội thảo 2: Xử lý luồng với SQL

Bạn sẽ học cách xử lý và quản lý dữ liệu phát trực tuyến bằng RisingWave, giải pháp này cung cấp giải pháp tiết kiệm chi phí với trải nghiệm kiểu PostgreSQL để hỗ trợ các ứng dụng xử lý luồng của bạn.

Dự án: Ứng dụng kỹ thuật dữ liệu trong thế giới thực

Mục tiêu của dự án này là triển khai tất cả các khái niệm mà chúng tôi đã học trong khóa học này để xây dựng đường dẫn dữ liệu từ đầu đến cuối. Bạn sẽ tạo một bảng thông tin bao gồm hai ô bằng cách chọn tập dữ liệu, xây dựng quy trình xử lý dữ liệu và lưu trữ dữ liệu đó trong hồ dữ liệu, xây dựng quy trình chuyển dữ liệu đã xử lý từ hồ dữ liệu sang kho dữ liệu, chuyển đổi dữ liệu trong kho dữ liệu và chuẩn bị cho bảng thông tin, cuối cùng là xây dựng bảng thông tin để trình bày dữ liệu một cách trực quan.

Chi tiết nhóm 2024

  • Đăng ký: Đăng ký ngay
  • Ngày bắt đầu: ngày 15 tháng 2024 năm 17, lúc 00:XNUMX CET
  • Tự học với sự hỗ trợ có hướng dẫn
  • Thư mục nhóm với bài tập về nhà và thời hạn
  • Interactive Cộng đồng Slack để học tập đồng đẳng

Điều kiện tiên quyết

  • Kỹ năng mã hóa và dòng lệnh cơ bản
  • Nền tảng trong SQL
  • Python: có lợi nhưng không bắt buộc

Giảng viên chuyên nghiệp dẫn dắt hành trình của bạn

  • Ankush Khanna
  • Victoria Perez Mola
  • Alexey Grigorev
  • Matt Palmer
  • Luis Oliveira
  • Michael thợ đóng giày

Tham gia nhóm thuần tập năm 2024 của chúng tôi và bắt đầu học hỏi với cộng đồng kỹ thuật dữ liệu tuyệt vời. Với chương trình đào tạo do chuyên gia hướng dẫn, kinh nghiệm thực tế và chương trình giảng dạy phù hợp với nhu cầu của ngành, chương trình đào tạo này không chỉ trang bị cho bạn những kỹ năng cần thiết mà còn giúp bạn dẫn đầu trên con đường sự nghiệp sinh lợi và theo yêu cầu. Hãy đăng ký ngay hôm nay và biến khát vọng của bạn thành hiện thực!
 
 

Abid Ali Awan (@ 1abidaliawan) là một nhà khoa học dữ liệu chuyên nghiệp được chứng nhận, người yêu thích việc xây dựng các mô hình học máy. Hiện tại, anh đang tập trung sáng tạo nội dung và viết blog kỹ thuật về công nghệ máy học và khoa học dữ liệu. Abid có bằng Thạc sĩ về Quản lý Công nghệ và bằng cử nhân về Kỹ thuật Viễn thông. Tầm nhìn của ông là xây dựng một sản phẩm AI bằng cách sử dụng mạng nơ-ron đồ thị cho những sinh viên đang chống chọi với bệnh tâm thần.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img