제퍼넷 로고

데이터 엔지니어링 기술이 없는 데이터 과학자는 가혹한 진실에 직면하게 될 것입니다

시간

데이터 엔지니어링 기술이 없는 데이터 과학자는 가혹한 진실에 직면하게 될 것입니다

데이터 과학자의 역할은 여전히 ​​진화하고 있지만 데이터는 여전히 핵심입니다. 데이터 과학자로서 수행할 작업에 대한 올바른 기대치를 설정하는 것이 중요하며, 확실히 데이터 엔지니어링 도구를 알고 있으면 실제 세계에 대비할 수 있습니다.


님이 촬영 한 사진 벤 화이트 on Unsplash.

데이터 과학자와 데이터 엔지니어의 차이점에 대한 기사를 읽었을 것입니다. 나는 항상 구분이 명확하다고 생각했습니다. 데이터 엔지니어는 데이터를 사용할 수 있도록 준비하고 데이터 과학자는 해당 데이터에 대해 작업합니다.

그러나 데이터 과학자로 일하기 시작한 후 이 구분에 대한 내 생각이 크게 바뀌었습니다.

데이터 과학의 모든 것은 데이터에서 시작됩니다. 머신 러닝 모델은 여기에 제공된 데이터만큼 훌륭합니다. 쓰레기 인, 쓰레기 아웃! 데이터 과학자는 적절한 데이터 없이 가치 있는 제품을 만드는 마술을 할 수 없습니다.

데이터 과학자가 적절한 데이터를 항상 쉽게 사용할 수 있는 것은 아닙니다. 대부분의 경우 원시 데이터를 적절한 형식으로 변환하는 것은 데이터 과학자의 책임입니다.

데이터 엔지니어와 데이터 과학자로 구성된 별도의 팀이 있는 대형 기술 회사에서 일하지 않는 한 일부 데이터 엔지니어링 작업을 처리할 수 있는 능력과 기술을 보유해야 합니다. 이러한 작업은 광범위한 작업을 다루며 이 기사의 나머지 부분에서 이에 대해 자세히 설명합니다.

어쨌든 차이점은 무엇입니까?

데이터 엔지니어의 직업과 데이터 과학자의 관계에 대한 제 의견을 말씀드리고 싶습니다.

데이터 엔지니어는 데이터 엔지니어입니다. 데이터 과학자는 데이터 과학자이자 데이터 엔지니어여야 합니다.

그것은 논쟁의 여지가 있는 진술처럼 보일 수 있습니다. 하지만 데이터 과학자로 일하기 전에는 제 생각이 달랐다는 점을 강조하고 싶습니다. 저는 데이터 엔지니어와 데이터 과학자를 별개의 개체로 생각하곤 했습니다.

기사의 나머지 부분에서는 데이터 과학자가 데이터 과학자이자 데이터 엔지니어여야 한다는 의미를 설명하려고 합니다.

예를 들어 데이터 엔지니어는 ETL(추출, 변환, 로드)이라는 일련의 작업을 수행합니다. 하나 이상의 소스에서 데이터를 수집하고 일부 변환을 적용한 다음 다른 소스에 로드하는 절차를 다룹니다.

데이터 과학자가 ETL 작업을 수행할 것으로 예상된다면 나는 확실히 놀라지 않을 것입니다. 데이터 과학은 여전히 ​​발전하고 있으며 대부분의 회사에는 데이터 엔지니어와 데이터 과학자 역할이 명확하게 구분되어 있지 않습니다. 결과적으로 데이터 과학자는 일부 데이터 엔지니어링 작업을 수행할 수 있어야 합니다.

바로 사용할 수 있는 데이터로 기계 학습 알고리즘을 실행하는 작업만 수행할 것으로 예상한다면 데이터 과학자로 일하기 시작한 직후 가혹한 진실에 직면하게 될 것입니다.

클라이언트 데이터를 사전 처리하기 위해 일부 저장 프로시저를 SQL로 작성해야 할 수도 있습니다. 또한 몇 가지 다른 소스에서 클라이언트 데이터를 수신할 수도 있습니다. 그것들을 추출하고 결합하는 것이 당신의 일이 될 것입니다. 그런 다음 단일 소스에 로드해야 합니다. 효율적인 저장 프로시저를 작성하려면 광범위한 SQL 기술이 필요합니다.

ETL 절차의 변환 부분에는 많은 데이터 정리 및 조작 단계가 포함됩니다. 대규모 데이터로 작업하는 경우 SQL이 최선의 선택이 아닐 수 있습니다. 이러한 경우 분산 컴퓨팅이 더 나은 대안입니다. 따라서 데이터 과학자는 분산 컴퓨팅에도 익숙해야 합니다.

분산 컴퓨팅의 가장 친한 친구는 Spark일 수 있습니다. 대규모 데이터 처리에 사용되는 분석 엔진입니다. 상당한 성능 향상을 달성하기 위해 클러스터에 데이터와 계산을 모두 배포할 수 있습니다.

Python과 SQL에 익숙하다면 Spark에 익숙해지는 데 어려움이 없을 것입니다. Spark용 Python API인 PySpark와 함께 Spark 기능을 사용할 수 있습니다.

클러스터 작업과 관련하여 최적의 환경은 클라우드입니다. 다양한 클라우드 제공업체가 있지만 AWS, Azure, Google Cloud Platform(GCP)이 그 선두를 달리고 있습니다.

PySpark 코드는 모든 클라우드 제공업체에 대해 동일하지만 환경을 설정하고 클러스터를 생성하는 방법은 제공업체 간에 변경됩니다. 스크립트 또는 사용자 인터페이스를 모두 사용하여 클러스터를 생성할 수 있습니다.

클러스터를 통한 분산 컴퓨팅은 완전히 다른 세계입니다. 컴퓨터에서 분석하는 것과는 다릅니다. 그것은 매우 다른 역학을 가지고 있습니다. 클러스터 성능을 평가하고 클러스터에 대한 최적의 작업자 수를 선택하는 것이 가장 중요한 관심사가 될 것입니다.

결론

간단히 말해서, 데이터 처리는 데이터 과학자로서의 업무에서 상당한 부분을 차지할 것입니다. 실질적으로, 나는 당신의 시간의 80% 이상을 의미합니다. 데이터 처리는 단순히 데이터를 정리하고 조작하는 것이 아닙니다. 또한 데이터 엔지니어의 작업으로 생각되는 ETL 작업도 포함됩니다.

ETL 도구와 개념에 익숙해지는 것이 좋습니다. 연습할 기회가 있다면 큰 도움이 될 것입니다.

데이터 과학자로서 기계 학습 알고리즘에 대해서만 작업할 것이라고 생각하는 것은 순진한 가정일 것입니다. 이것도 중요한 작업이지만 시간의 일부만 소모합니다.

실물. 허가를 받아 다시 게시했습니다.

관련 :


PlatoAi. Web3 재창조. 데이터 인텔리전스 증폭.
액세스하려면 여기를 클릭하십시오.

출처: https://www.kdnuggets.com/2021/09/data-scientists-data-engineering-skills.html

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?