제퍼넷 로고

모든 데이터 과학자가 알아야 하는 XNUMX가지 데이터 엔지니어링 기본 사항

시간

이 기사는 데이터 과학 Blogathon

개요

데이터 과학은 팀 스포츠이며 어려운 비즈니스 문제를 해결하여 변화를 주도할 수 있도록 분석/데이터 과학 수명 주기 전반에 걸쳐 가치를 추가하는 구성원이 있습니다.

데이터 과학 팀에는 여러 팀원이 있습니다. 모든 데이터의 기반을 만드는 데이터 엔지니어 설명 분석을 탐색하고 수행하기 위해 분석가가 소비하는 데이터 과학자가 생성한 추가 고급 ML 모델 – BI 엔지니어가 시각화하고 ML 엔지니어가 배포합니다. 이들 모두는 조직의 데이터 과학 프로그램을 성공적으로 추진하기 위해 협력해야 합니다.

데이터 과학 팀의 일반적인 이해 관계자 맵은 다음과 같습니다.

데이터 과학 역할 | 데이터 엔지니어링 기초

이미지 1

내용 :

- 데이터 과학자가 데이터 엔지니어링 개념을 알아야 하는 이유는 무엇입니까?

  • 개념 1 - 데이터 웨어하우스 및 데이터 레이크
  • 개념 2 – 데이터 ETL/파이프라인
  • 개념 3 – 데이터 거버넌스 및 품질
  • 개념 4 - 데이터 규정 및 윤리

이제 문제는 팀에 챔피언 데이터 엔지니어가 있는지 여부입니다. 데이터 과학자가 데이터 엔지니어링/데이터 관리 개념을 알아야 하는 이유?

  1. 그들은 데이터의 소비자이므로 강력한 분석 솔루션을 만들기 위해 그 데이터로 – 데이터가 수집, 저장 및 준비되는 시기와 방법을 아는 것은 데이터를 가져오고, 인사이트를 도출하고, 모델을 설계하는 올바른 방법과 도구를 얻는 데 도움이 됩니다.
  2. 데이터 과학 팀에 필요할 수 있습니다. 데이터 엔지니어링과 정기적으로 상호 작용 새로운 데이터를 얻기 위해 파생 테이블에 대한 추가 데이터 정보를 공유합니다. 이러한 개념을 알면 보다 효율적인 대화가 가능합니다.
  3. 동의 하에 규정에 따라 데이터를 사용하는 것이 더 강조되었습니다. 데이터 과학 팀은 데이터 규정과 밀접하게 관련되어 있어야 합니다(그들은 이미). 도움 규정 준수를 유지하고 데이터 규정의 위험을 줄이기 위해

요컨대, 데이터 사이언스 팀은 데이터 규정에 타협하지 않고 (빅) 데이터에서 최상의 가치를 효율적으로 도출할 수 있는 역할을 수행해야 합니다. 데이터 엔지니어링 개념을 알면 더 잘할 수 있습니다.

이러한 맥락에서 데이터 과학자의 렌즈에서 개념을 바로 살펴보겠습니다!

데이터 웨어하우스 및 데이터 레이크

데이터 과학자가 알지 못하는 것: 

대시보드를 디자인하고 모델을 만드는 방법을 배우는 동안 데이터 과학자는 대시보드에 저장된 데이터를 기반으로 더 친숙합니다. 데이터 웨어하우스 및 데이터 레이크에서 소싱. 데이터 과학자는 웨어하우스에서 데이터를 쿼리하는 가장 좋은 기술이 무엇인지, 해당 데이터를 전체적으로 보는 가장 좋은 방법이 무엇인지 모를 수 있습니다.

주요 기본 사항[I]

  • 데이터 웨어하우스는 여러 소스에서 생성된 진실 데이터베이스의 중앙 집중식 소스입니다(각 부서에는 여전히 자체 웨어하우스가 있을 수 있음)(예: 신용 카드 거래와 같은 금융 서비스 산업 데이터).
  • 일반적으로 (더 빠른 쿼리를 위해) 비정규화된 구조를 가지며 각 테이블은 잠재적인 비즈니스 사례를 위해 준비 및 구조화되었습니다.
  • 데이터 레이크는 원시 데이터(비정형 포함)가 저장되는 데이터 웨어하우스 이전 단계로, 그 목적이 아직 정의되지 않은 경우에도 모든 데이터가 보관됩니다. (예: 의료 분야의 임상의 노트)

데이터 과학자를 돕는 방법[II]

  • ML 모델/분석 솔루션은 데이터만큼 우수하므로 데이터 과학자가 데이터의 출처를 알아야 합니다.
  • 대부분의 데이터 과학 프로젝트에서 시간의 80%는 데이터 랭글링에 사용되므로 데이터 웨어하우스에 대한 지식과 분석 준비 데이터 세트/데이터마트를 이해/생성/요청할 수 있으면 효율성을 높이고 프로젝트 일정을 단축할 수 있습니다.
  • 데이터 레이크는 사용 사례에 대한 데이터를 식별하기 위해 검색 연습에서 데이터 과학자를 도울 수 있습니다.

 

데이터 ETL(Extract Transform Load)/파이프라인

데이터 과학자가 알지 못하는 것:

수집된 데이터와 분석을 위해 제시된 데이터는 종종 데이터 웨어하우스나 분석 파일에 저장되기 전에 관련된 많은 전처리 및 전송 단계가 있습니다. 대부분의 데이터 과학자는 ML/AI를 배우는 동안 이미 준비된 데이터를 사용했을 수 있지만 산업의 실제 ML 설계에서는 종종 데이터 과학자가 사용 사례별로 데이터를 준비하고 수정해야 합니다. 수집된 데이터와 특정 필드에서 어떻게 끝났는지(예를 들어 Null 성별은 사용자가 데이터를 공유하고 싶지 않았음을 의미하거나 데이터를 사용할 수 없음을 의미하거나 둘 다 – 데이터 엔지니어링 팀이 답을 가지고 있음)

주요 기본 사항[iii]

  • ETL = "추출, 변환 및 로드"는 웨어하우스에 저장하거나 ML 모델/분석 사용 사례에 사용할 데이터 준비에 필요한 데이터 엔지니어링 단계입니다.
  • 여기에는 소스(예: Adobe 클라우드에 저장된 웹 사이트의 Adobe 분석)에서 데이터를 가져와 데이터 피드를 준비한 다음 비즈니스와 관련된 형식으로 변환(조직의 고유한 고객 ID와 통합)하는 작업이 포함됩니다. , 예를 들어 통화를 $ 형식 현지 통화로 변경한 다음 데이터 웨어하우스/레이크에 있는 하나 이상의 테이블에 로드합니다. 때로는 해당 데이터를 로드한 후에 변환이 수행되며 이를 ELT라고 합니다.
  • 데이터 파이프라인은 데이터가 한 위치에서 다른 위치로 이동하는 일련의 연결 및 단계입니다.
  • 데이터 피드는 ETL 프로세스를 통해 주기적으로 데이터 웨어하우스에 수집되는 데이터 블록입니다.

데이터 과학자를 돕는 방법

  • ML 모델/분석 솔루션은 일회성으로 만들어지는 것이 아니라 지속적으로 업데이트하고 새로 고쳐야 합니다.
  • 데이터 ETL 개념을 ML 사전 처리에 적용하여 ML 구현 중에 사용할 수 있는 프로덕션 준비 코드 및 워크플로를 만들 수 있습니다.
  • ETL 프로세스에 대한 지식은 데이터 계보를 이해하고 데이터를 올바르게 해석하는 데 도움이 될 수 있습니다(예: '연령' 데이터에 대한 지식은 판매 시점에서 수동 또는 자동으로 수집되었으며 저장하기 전에 연령 밴드에 매핑을 적용하면 ML 모델을 더 잘 설계하는 데 도움이 됨)
구름 | 데이터 엔지니어링 기초

이미지 2

 

데이터 거버넌스 및 품질

데이터 과학자가 알지 못하는 것: 

데이터는 모든 분석 솔루션의 기초입니다. 데이터 세트의 일부라도 변경되면 생성된 다운스트림 모델 등이 완전히 손상되고 특정 컨텍스트에 대한 데이터 일관성을 논리적으로 확인하는 검사가 없는 경우가 많습니다(예: 갑자기 고객당 수익이 발생하는 경우). 비즈니스 환경의 변화 없이 100달러에서 800달러로 증가하면 잘못된 ML 점수와 잘못된 대시보드로 이어질 것입니다. 따라서 데이터 과학 팀은 데이터 거버넌스 및 엔지니어링 팀과 긴밀히 협력하여 모든 모델과 분석이 일관되게 올바른 데이터를 얻을 수 있도록 모든 중요 경로를 따라 검사를 설정해야 합니다.

주요 기본 사항[iv]

  • 데이터 거버넌스는 표준화된 프로세스 및 데이터를 포함하여 조직이 데이터 목표, 범위, 소유권, 개인 정보 보호 및 보안을 관리하는 방법을 정의하는 데 사용되는 보다 광범위한 용어입니다.
  • 데이터 품질은 완전성, 일관성 및 데이터 불규칙성을 처리하기 위한 계획을 위해 데이터를 지속적으로 모니터링하는 데 중점을 둔 데이터 거버넌스의 하위 집합입니다.
  • 예 – 조직이 소셜 미디어 데이터를 수집해야 하는 경우 데이터 거버넌스는 데이터 거버넌스에 따라 모든 평가 및 계획을 수행한 다음 데이터 품질을 사용하여 수신된 데이터를 평가합니다.

데이터 과학자를 돕는 방법

  • 데이터 품질은 강력한 분석 솔루션을 만들고 데이터 과학 팀의 평판과 신뢰를 유지하는 데 도움이 됩니다.
  • IT, 데이터 과학 및 비즈니스 팀이 사전에 식별하고 공동으로 해결하면 재작업 및 잘못된 비즈니스 결정을 방지할 수 있습니다.
  • 모델 출력 모니터링과 같지만, 이 경우 데이터 웨어하우스에 입력된 데이터를 면밀히 모니터링하여 이상 징후가 있는지 경고합니다.
데이터 품질 | 데이터 엔지니어링 기초

이미지 3

데이터 규정 및 윤리

데이터 과학자가 알지 못하는 것:

사용 중인 데이터는 합법성에 의해 제약을 받을 수 있으며 생성된 ML 모델도 편견이 있을 수 있으며 때때로 윤리적 기준을 준수하지 않는 의도하지 않은 방식으로 데이터를 사용할 수 있습니다. 모든 법적 의미 또는 브랜드 이미지 사고는 데이터 과학 팀이 수행한 작업에 의해 주도된 것일 수 있습니다. 데이터 사이언스 팀은 데이터 처리와 해당 데이터의 분석 솔루션을 주도했기 때문에 그 영향에 대한 책임이 있습니다. 놀랍게도 많은 분석 팀이 이를 모르고 이에 대한 준비가 되어 있지 않습니다. DS 팀이 사용한 사용 사례에 대해 사용자 동의가 수집되지 않았을 수 있습니다.

주요 기본 사항[V]

  • 데이터 규정은 수집, 공개, 저장, 사용 및 사용 주기 종료 시 데이터 정리를 관리하는 규칙을 나타냅니다(예: GDPR, CCPA).
  • 데이터 윤리는 데이터의 윤리적 사용, 투명성, 비편향성 및 정당한 사용을 의미합니다(예: 특정 계층의 상환 내역이 불량할 수 있는 사회 계층 데이터를 사용하여 고객 대출을 거부하지 않음).

데이터 과학자를 돕는 방법

  • 올바른 방식으로 데이터를 사용하는 데 따른 법적, 브랜드 및 평판 위험을 방지합니다.
  • 조직 전체에서 모범이 될 수 있는 고객 친화적인 모델 개발 지원
  • 잘못된 데이터 공유를 방지하여 데이터 거버넌스 전략 설계를 개선하는 데 도움이 되도록 팀 전체에서 민감한 데이터 공유에 대한 액세스를 더 잘 관리합니다.

 

생각을 폐쇄

분석 스택: 모든 것을 통합 – 모든 요소(여기에 언급된 4개)를 분석 팀이 결과를 생성하기 위해 사용하는 단일 엔터티로 결합합니다. 일반적으로 약간의 변형이 있는 경우 아래와 같이 표시됩니다.

분석 스택 | 데이터 엔지니어링 기초

이미지 4

데이터 사이언스 팀은 탄력적이고 안정적인 관행을 구축하고 고품질로 비즈니스에 가치를 계속 추가하기 위해 이 네 가지 요소에 집중해야 합니다.


참고자료


[I] https://www.talend.com/resources/data-lake-vs-data-warehouse/

[II] https://towardsdatascience.com/data-warehouse-68ec63eecf78

[iii] https://www.snowflake.com/guides/etl-pipeline

[iv] https://www.collibra.com/blog/data-quality-vs-data-governance

[V] https://www.datascience-pm.com/10-data-science-ethics-questions/

이미지 출처-

  1. Image 1: https://medium.com/co-learning-lounge/job-roles-in-data-science-10e790ea21b5
  2. Image 2: https://towardsdatascience.com/scalable-efficient-big-data-analytics-machine-learning-pipeline-architecture-on-cloud-4d59efc092b5
  3. 이미지 3: https://www.edq.com/blog/data-quality-vs-data-governance/
  4. 이미지 4: https://www.tellius.com/the-modern-data-analytics-stack/

의 기사 아쉬위니 쿠마르 | 데이터 과학 리드 및 십자군 | 링크드 인

이 기사에 표시된 미디어는 Analytics Vidhya의 소유가 아니며 작성자의 재량에 따라 사용됩니다.

PlatoAi. Web3 재창조. 데이터 인텔리전스 증폭.
액세스하려면 여기를 클릭하십시오.

출처: https://www.analyticsvidhya.com/blog/2021/09/four-data-engineering-fundamentals-all-data-scientists-must-know/

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?