โลโก้เซเฟอร์เน็ต

7 ขั้นตอนสู่การเรียนรู้วิศวกรรมข้อมูล – KDnuggets

วันที่:

7 ขั้นตอนสู่การเรียนรู้วิศวกรรมข้อมูล
ภาพโดยผู้เขียน
 

วิศวกรรมข้อมูลหมายถึงกระบวนการสร้างและบำรุงรักษาโครงสร้างและระบบที่รวบรวม จัดเก็บ และแปลงข้อมูลให้อยู่ในรูปแบบที่นักวิทยาศาสตร์ข้อมูล นักวิเคราะห์ และผู้มีส่วนได้ส่วนเสียทางธุรกิจสามารถวิเคราะห์และใช้งานได้ง่าย แผนงานนี้จะแนะนำคุณในการฝึกฝนแนวคิดและเครื่องมือต่างๆ ให้เชี่ยวชาญ ช่วยให้คุณสร้างและดำเนินการไปป์ไลน์ข้อมูลประเภทต่างๆ ได้อย่างมีประสิทธิภาพ

การวางคอนเทนเนอร์ช่วยให้นักพัฒนาสามารถจัดแพคเกจแอปพลิเคชันและการพึ่งพาของตนลงในคอนเทนเนอร์แบบพกพาน้ำหนักเบาที่สามารถทำงานได้อย่างสม่ำเสมอในสภาพแวดล้อมที่แตกต่างกัน ในทางกลับกัน โครงสร้างพื้นฐานในรูปแบบโค้ด คือแนวทางปฏิบัติในการจัดการและจัดเตรียมโครงสร้างพื้นฐานผ่านโค้ด ซึ่งช่วยให้นักพัฒนาสามารถกำหนด เวอร์ชัน และทำให้โครงสร้างพื้นฐานคลาวด์เป็นอัตโนมัติได้

ในขั้นตอนแรก คุณจะได้เรียนรู้เกี่ยวกับพื้นฐานของไวยากรณ์ SQL, คอนเทนเนอร์ Docker และฐานข้อมูล Postgres คุณจะได้เรียนรู้วิธีเริ่มต้นเซิร์ฟเวอร์ฐานข้อมูลโดยใช้ Docker ภายในเครื่อง รวมถึงวิธีสร้างไปป์ไลน์ข้อมูลใน Docker นอกจากนี้ คุณจะพัฒนาความเข้าใจเกี่ยวกับ Google Cloud Provider (GCP) และ Terraform Terraform จะมีประโยชน์อย่างยิ่งสำหรับคุณในการปรับใช้เครื่องมือ ฐานข้อมูล และเฟรมเวิร์กบนคลาวด์

การจัดลำดับเวิร์กโฟลว์จะจัดการและทำให้โฟลว์ข้อมูลเป็นอัตโนมัติผ่านขั้นตอนการประมวลผลต่างๆ เช่น การนำเข้าข้อมูล การล้าง การแปลง และการวิเคราะห์ เป็นวิธีการทำสิ่งต่างๆ ที่มีประสิทธิภาพ เชื่อถือได้ และปรับขนาดได้มากขึ้น

ในขั้นตอนที่ 2 คุณจะได้เรียนรู้เกี่ยวกับเครื่องมือจัดระเบียบข้อมูล เช่น Airflow, Mage หรือ Prefect ทั้งหมดนี้เป็นโอเพ่นซอร์สและมาพร้อมกับคุณสมบัติที่จำเป็นหลายประการสำหรับการสังเกต จัดการ การปรับใช้ และการดำเนินการไปป์ไลน์ข้อมูล คุณจะได้เรียนรู้วิธีตั้งค่า Prefect โดยใช้ Docker และสร้างไปป์ไลน์ ETL โดยใช้ Postgres, Google Cloud Storage (GCS) และ BigQuery API 

วันที่ออก 5 ทางเลือกการไหลของอากาศสำหรับการจัดเรียงข้อมูล และเลือกอันที่เหมาะกับคุณมากกว่า

คลังข้อมูลคือกระบวนการรวบรวม จัดเก็บ และจัดการข้อมูลจำนวนมากจากแหล่งต่างๆ ในพื้นที่เก็บข้อมูลแบบรวมศูนย์ ทำให้ง่ายต่อการวิเคราะห์และดึงข้อมูลเชิงลึกอันมีค่าออกมา

ในขั้นตอนที่สาม คุณจะได้เรียนรู้ทุกอย่างเกี่ยวกับคลังข้อมูล Postgres (ท้องถิ่น) หรือ BigQuery (คลาวด์) คุณจะได้เรียนรู้เกี่ยวกับแนวคิดเรื่องการแบ่งพาร์ติชันและการจัดกลุ่ม และเจาะลึกแนวทางปฏิบัติที่ดีที่สุดของ BigQuery BigQuery ยังมีการผสานรวมแมชชีนเลิร์นนิงซึ่งคุณสามารถฝึกโมเดลเกี่ยวกับข้อมูลขนาดใหญ่ การปรับแต่งไฮเปอร์พารามิเตอร์ การประมวลผลฟีเจอร์ล่วงหน้า และการทำให้โมเดลใช้งานได้ มันเหมือนกับ SQL สำหรับการเรียนรู้ของเครื่อง

วิศวกรรมการวิเคราะห์เป็นสาขาเฉพาะทางที่มุ่งเน้นไปที่การออกแบบ การพัฒนา และการบำรุงรักษาแบบจำลองข้อมูลและไปป์ไลน์การวิเคราะห์สำหรับทีมข่าวกรองธุรกิจและวิทยาศาสตร์ข้อมูล 

ในขั้นตอนที่สี่ คุณจะได้เรียนรู้วิธีสร้างไปป์ไลน์การวิเคราะห์โดยใช้ dbt (เครื่องมือสร้างข้อมูล) ด้วยคลังข้อมูลที่มีอยู่ เช่น BigQuery หรือ PostgreSQL คุณจะได้รับความเข้าใจเกี่ยวกับแนวคิดหลัก เช่น ETL กับ ELT รวมถึงการสร้างแบบจำลองข้อมูล นอกจากนี้คุณยังจะได้เรียนรู้คุณสมบัติ dbt ขั้นสูง เช่น โมเดลส่วนเพิ่ม แท็ก hooks และสแน็ปช็อต 

ในตอนท้าย คุณจะได้เรียนรู้การใช้เครื่องมือแสดงภาพ เช่น Google Data Studio และ Metabase เพื่อสร้างแดชบอร์ดแบบโต้ตอบและรายงานการวิเคราะห์ข้อมูล

การประมวลผลแบบกลุ่มเป็นเทคนิคทางวิศวกรรมข้อมูลที่เกี่ยวข้องกับการประมวลผลข้อมูลปริมาณมากเป็นชุด (ทุกนาที ชั่วโมง หรือแม้แต่วัน) แทนที่จะประมวลผลข้อมูลแบบเรียลไทม์หรือใกล้เคียงเรียลไทม์ 

ในขั้นตอนที่ห้าของเส้นทางการเรียนรู้ คุณจะได้เรียนรู้เกี่ยวกับการประมวลผลแบบแบตช์ด้วย Apache Spark คุณจะได้เรียนรู้วิธีการติดตั้งบนระบบปฏิบัติการต่างๆ, ทำงานกับ Spark SQL และ DataFrames, เตรียมข้อมูล, ดำเนินการ SQL และทำความเข้าใจเกี่ยวกับ Spark Internals ในช่วงท้ายของขั้นตอนนี้ คุณจะได้เรียนรู้วิธีเริ่มต้นอินสแตนซ์ Spark ในระบบคลาวด์และรวมเข้ากับคลังข้อมูล BigQuery

การสตรีมหมายถึงการรวบรวม การประมวลผล และการวิเคราะห์ข้อมูลแบบเรียลไทม์หรือใกล้เคียงเรียลไทม์ การประมวลผลข้อมูลแบบสตรีมแตกต่างจากการประมวลผลแบบแบตช์แบบดั้งเดิมที่ข้อมูลจะถูกรวบรวมและประมวลผลตามช่วงเวลาที่สม่ำเสมอ ช่วยให้สามารถวิเคราะห์ข้อมูลล่าสุดได้อย่างต่อเนื่อง

ในขั้นตอนที่หก คุณจะได้เรียนรู้เกี่ยวกับการสตรีมข้อมูลด้วย Apache Kafka เริ่มต้นด้วยพื้นฐานแล้วเจาะลึกการบูรณาการกับ Confluent Cloud และแอปพลิเคชันเชิงปฏิบัติที่เกี่ยวข้องกับผู้ผลิตและผู้บริโภค นอกจากนี้ คุณจะต้องเรียนรู้เกี่ยวกับการรวมสตรีม การทดสอบ การกำหนดหน้าต่าง และการใช้ Kafka ksqldb & Connect 

หากคุณต้องการสำรวจเครื่องมือต่างๆ สำหรับกระบวนการทางวิศวกรรมข้อมูลต่างๆ คุณสามารถดูได้ที่ 14 เครื่องมือวิศวกรรมข้อมูลที่จำเป็นที่จะใช้ในปี 2024.

ในขั้นตอนสุดท้าย คุณจะใช้แนวคิดและเครื่องมือทั้งหมดที่คุณได้เรียนรู้ในขั้นตอนก่อนหน้านี้เพื่อสร้างโครงการวิศวกรรมข้อมูลแบบครบวงจรที่ครอบคลุม สิ่งนี้จะเกี่ยวข้องกับการสร้างไปป์ไลน์สำหรับการประมวลผลข้อมูล การจัดเก็บข้อมูลใน Data Lake การสร้างไปป์ไลน์สำหรับการถ่ายโอนข้อมูลที่ประมวลผลจาก Data Lake ไปยังคลังข้อมูล การแปลงข้อมูลในคลังข้อมูล และการจัดเตรียมสำหรับแดชบอร์ด . สุดท้าย คุณจะสร้างแดชบอร์ดที่แสดงข้อมูลด้วยภาพ

ขั้นตอนทั้งหมดที่กล่าวถึงในคู่มือนี้มีอยู่ใน วิศวกรรมข้อมูล ZoomCamp- ZoomCamp นี้ประกอบด้วยหลายโมดูล แต่ละโมดูลประกอบด้วยบทช่วยสอน วิดีโอ คำถาม และโปรเจ็กต์เพื่อช่วยคุณเรียนรู้และสร้างไปป์ไลน์ข้อมูล 

ในแผนงานวิศวกรรมข้อมูลนี้ เราได้เรียนรู้ขั้นตอนต่างๆ ที่จำเป็นในการเรียนรู้ สร้าง และดำเนินการไปป์ไลน์ข้อมูลสำหรับการประมวลผล การวิเคราะห์ และการสร้างแบบจำลองข้อมูล เรายังได้เรียนรู้เกี่ยวกับทั้งแอปพลิเคชันและเครื่องมือบนคลาวด์ตลอดจนเครื่องมือในเครื่อง คุณสามารถเลือกสร้างทุกอย่างในเครื่องหรือใช้ระบบคลาวด์เพื่อความสะดวกในการใช้งาน ฉันอยากจะแนะนำให้ใช้ระบบคลาวด์ตามที่บริษัทส่วนใหญ่ชอบ และอยากให้คุณได้รับประสบการณ์ในแพลตฟอร์มระบบคลาวด์ เช่น GCP
 
 

อาบิด อาลี อาวัน (@1อบีดาลิวัน) เป็นนักวิทยาการข้อมูลมืออาชีพที่ผ่านการรับรองและชื่นชอบการสร้างโมเดลแมชชีนเลิร์นนิง ปัจจุบันเขามุ่งเน้นไปที่การสร้างเนื้อหาและการเขียนบล็อกทางเทคนิคเกี่ยวกับการเรียนรู้ของเครื่องและเทคโนโลยีวิทยาศาสตร์ข้อมูล อาบีดสำเร็จการศึกษาระดับปริญญาโทสาขาการจัดการเทคโนโลยี และปริญญาตรีสาขาวิศวกรรมโทรคมนาคม วิสัยทัศน์ของเขาคือการสร้างผลิตภัณฑ์ AI โดยใช้โครงข่ายประสาทเทียมแบบกราฟสำหรับนักเรียนที่ต้องดิ้นรนกับอาการป่วยทางจิต

จุด_img

ข่าวกรองล่าสุด

จุด_img