제퍼넷 로고

5가지 중요한 데이터 과학 기술을 배우기 위한 5가지 데이터 과학 프로젝트

시간

5가지 중요한 데이터 과학 기술을 배우기 위한 5가지 데이터 과학 프로젝트
 

데이터 과학 산업에 진출하려는 경우 몇 가지 프로젝트를 진행하는 것이 좋습니다. 데이터 과학 프로젝트를 수행하면 데이터 과학자로 일하는 데 필요한 기술을 개발하는 데 도움이 됩니다. 또한 이력서에 기재하고 인터뷰 중에 논의할 수 있는 제품이 있습니다. 이는 자신이 무엇을 하고 있는지 아는 데 매우 중요합니다.

데이터 과학 개발 주기는 회사를 위한 것이든 개인 프로젝트를 위한 것이든 모든 데이터 과학 프로젝트의 주요 패턴입니다. 능숙한 데이터 과학자가 되려면 데이터 수집, 정리, 모델링 및 시각화에 익숙해야 합니다. . 미래의 데이터 과학 작업에서 사용하는 특정 도구 스택은 내가 아래에서 권장하는 도구와 다를 수 있지만 컴퓨터 과학 세계의 모든 것과 마찬가지로 한 도구의 특정 구문이나 기능보다 사고 방법을 배우는 것이 더 중요합니다. 결국 Tableau를 사용하여 데이터 시각화를 만들 수 있다면 데이터 시각화를 위한 일반적인 프로세스에 이미 익숙하기 때문에 Power BI로 수행하는 방법을 상당히 빨리 배울 수 있습니다.

전체 데이터 과학 개발 주기에 한 번에 익숙해지는 것은 압도적일 수 있습니다. 주기의 각 단계에는 여러 기술이 필요하며 모든 데이터 과학자 기술 한 번에 모든 단계에 대해 실망스럽고 아마도 무익한 과정이 될 것입니다. 한 번에 모든 것을 하려고 허둥거리지 말고 학습 여정을 구성하여 자신에게 도움이 됩니다.

당신이 직면하게 될 아민 장애물은 동기 부여입니다. 내 동기를 유지하고 공급하기 위해 선호하는 방법은 내 기술을 새로운 영역으로 확장하려고 할 때 테마나 제품을 선택하는 것입니다. 실제 제품을 생각해보고(얼마나 쓸모없거나 시장성이 없어 보이든 상관없이) 그 아이디어로 주기를 따라가십시오.

당신의 열정을 따르고 이 기회를 통해 당신이 원하는 이유 사이의 단면을 찾으십시오. 데이터 과학에 입문하다 그리고 남은 인생. 달리기를 좋아한다면 레이스 시간과 훈련 계획에 대한 데이터 세트를 찾아 어떤 훈련 계획이 가장 큰 개선을 가져오는지 확인할 수 있습니다. 베이킹에 관심이 있고 검색 엔진의 키워드 빈도를 분석하여 홈 베이커 사이에서 다양한 요리의 인기도를 파악하고자 할 수 있습니다.

다음은 수행할 수 있는 XNUMX가지 미니 데이터 과학 프로젝트에 대한 요약입니다. 각각은 이력서에 표시해야 하는 기술을 알려줄 것입니다.

 
요리를 시작할 때와 마찬가지로 먼저 필요한 모든 재료를 모았는지 확인해야 합니다. 모든 종류의 통찰력을 생성하는 첫 번째 단계는 데이터를 확보하는 것입니다. 귀하의 관련 데이터 찾기 데이터 분석 프로젝트, 개인 프로젝트든 업무 프로젝트든 큰 도전입니다.

API

 
편안하게 작업할 수 있어야 합니다. API. API를 웹사이트의 프론트엔드와 데이터를 보유하고 처리하는 서버 및 데이터베이스와 같은 두 프로그램 간의 공식화된 계약으로 생각하십시오. API는 프런트 엔드와 백 엔드 사이의 통신을 구조화하기 위해 게시됩니다. REST API는 매우 유명하며 웹 서비스에서 데이터를 쿼리하는 데 사용됩니다. Google Trends API와 유사한 API를 사용하여 데이터를 수집할 수 있습니다.

데이터베이스에서 빅 데이터 가져오기

 
클라우드 서비스(AWS, Azure 또는 Google Cloud)에서 데이터베이스를 만들고 연결하려고 합니다. 모든 대형 클라우드 솔루션 제공업체에는 취미 데이터 과학자가 테스트하기에 완벽한 광범위한 무료 계층이 있습니다. 많은 소비자, 학생 및 기업이 모두 이러한 유명 제품을 사용하기 때문에 광범위한 문서와 수많은 스택 오버플로 질문을 포함하여 프리 티어를 다루는 수많은 유용한 콘텐츠가 있습니다. 클라우드 서비스는 현대 데이터 과학의 중심 부분이 되고 있으므로 지금 알아보는 것이 좋습니다.

제품을 선택하고 데이터베이스를 만듭니다. 아마존구글 둘 다 프리 티어 데이터베이스 작업에 대한 훌륭한 문서를 가지고 있습니다. 가져오기는 매우 간단합니다. 잘 문서화 된 프로세스. Google은 심지어 팁과 트릭 목록 비용을 줄이기 위해 데이터를 압축하는 것과 같은 최상의 데이터 가져오기 전략을 위해

데이터 소싱

 
개인 프로젝트를 위한 많은 오픈 소스 데이터 소스가 있습니다. 다음과 같이 과도하게 사용된 데이터 세트를 피하십시오. 홍채 데이터 셋. 당신은 당신의 프로젝트가 당신의 이력서에 스플래시를 만들기를 원합니다. 내가 좋아하는 몇 가지 데이터 소스를 수집했습니다. 그 중 하나는 황당, 더 중점을 둔 것 대중 문화, 및 다음을 포함하는 세 번째 더 심각한 것들 인구 통계 및 건강 데이터와 같은

 
5가지 중요한 데이터 과학 기술을 배우기 위한 5가지 데이터 과학 프로젝트
 

데이터를 청소한다는 것은 처음부터 데이터가 더럽다는 것을 의미합니다. 나는 야생에서 진정으로 깨끗한 데이터 세트를 만난 적이 없으며 아마도 당신도 만나지 않았을 것입니다. 더러운 데이터는 부정확한 결과로 이어지기 때문에 데이터 정리는 데이터 과학의 필수적인 부분입니다. 더티 데이터는 중복되거나, 오래되었거나, 부정확하거나, 불완전하거나, 일관성이 없는 데이터를 포함할 수 있습니다. 이러한 모든 문제를 완화하는 방법을 배워야 합니다.
Tableau에 따르면, 데이터 정리를 위한 XNUMX단계 중복 제거, 구조적 문제 수정, 원치 않는 이상값 필터링, 누락된 데이터 처리, 정리된 데이터 세트의 품질 검증이 포함됩니다.

더러운 데이터를 정리하는 방법

 
우리는 완벽을 추구하지 않는다는 것을 기억하십시오. 우리는 충분히 잘 할 것입니다. 최대한의 노력과 잠재적으로 과도하게 수정된 데이터 세트와 데이터 정리 프로세스를 통한 지연 사이의 균형을 찾으십시오.
데이터베이스 동향 및 응용 프로그램에는 훌륭한 가이드 데이터 정리 프로세스를 단계별로 안내합니다. 기억해야 할 가장 중요한 사항은 데이터 정리 프로세스에서 수행한 모든 변경 사항을 문서화하는 것입니다. 예를 들어 불완전한 데이터를 다룰 때는 몇 가지 가정을 하고 그 가정에 따라 결정을 내려야 합니다. 가정과 교체 또는 삭제 논리가 기록되지 않은 경우 더 많은 정보나 이해를 얻으면 이 데이터를 다시 도입할 기회를 놓치게 됩니다.

더티 데이터에 대한 몇 가지 특정 예가 필요한 경우 Foresight BI는 다양한 유형의 더티 데이터에 대한 연습을 마련했습니다. 가장 도전적이라고 생각되는 XNUMX가지 운동을 선택하고 시도해 보십시오. 그들은 데이터가 어떻게 보이는지에 대한 몇 가지 구조와 좋은 예제 개요를 가지고 있습니다.

 
기본적인 통계 분석 외에 머신 러닝은 데이터 과학의 핵심 부분입니다. 기계 학습 모델을 편안하게 개발, 유지 관리 및 배포하여 데이터 과학 경력 다음 단계로.

기계 학습 모델 구축

 
아마존은 기계 학습 튜토리얼 SageMaker 서비스를 사용하여 기계 학습 모델을 구축, 교육 및 배포하는 과정을 안내합니다. 데이터 과학이나 머신 러닝을 처음 접하는 경우 이 방법을 사용하는 것이 좋은 방법입니다. 이 방법은 항상 손을 잡고 있지만 여전히 전체 프로세스에 노출될 것이기 때문입니다. 이전에 직접 모델을 구축, 교육 및 배포한 적이 없다면 Amazon 가이드를 따르겠습니다.

짓다

 
그러나 더 많은 경험이 있다면 쉬운 길을 택하지 마십시오. 데이터를 테스트 및 교육 데이터로 분할하도록 주의하면서 평소와 같이 모델을 빌드합니다. 가지고 있는 데이터의 종류와 만들고자 하는 예측의 종류에 따라 올바른 모델을 선택하십시오(레이블이 있는 데이터의 경우 감독, 레이블이 없는 데이터의 경우 비감독 등).

Train

 
Chris Rawles는 사랑스럽고 디테일한 조합을 만들었습니다. 모델 설정 방법에 대한 가이드 클라우드에서 훈련합니다. 그들은 Google Cloud를 사용했지만 그가 권장하는 원칙은 선택한 클라우드 제공업체에 관계없이 유효합니다.

배포

 
AWS의 람다 서비스 코드를 배포하고 실행하는 데 유용합니다. 가격 책정 모델은 요청당 지불 방식이므로 배포를 연습하고 일부 면접관에게 이를 보여주기 위해 사용하는 경우 비용 효율적일 수 있습니다.

회귀 모델 구축

 
회귀 모델은 예측하려는 결과가 이진인 경우 가장 잘 작동합니다. 회귀 모델은 신경망이나 클러스터링 알고리즘보다 간단하지만 다른 기계 학습 모델처럼 훈련하고 배포해야 합니다.

머신 러닝과 데이터 과학에 사용되는 끝없는 도구 목록에 대해 깊이 이해하지 못하는 경우 소화할 수 있는 연습부터 시작해 보세요. Excel에서 간단하면서도 효과적인 회귀 모델을 작성할 수 있습니다. 그것은 멋진 것이 아니며, 이렇게 하면 당신에게 데이터 과학 직업을 얻을, 그러나 이것은 초보 데이터 과학자에게 훌륭한 아기 단계입니다.

 
5가지 중요한 데이터 과학 기술을 배우기 위한 5가지 데이터 과학 프로젝트
 
데이터를 찾고, 정리하고, 모델을 개발하고, 예측 또는 통찰력을 생성하는 모든 힘든 작업을 완료했다면 이제 작업을 과시할 시간입니다! 간단하면서도 효과적인 방식으로 결과를 전달해야 하므로 어떤 유형의 시각화를 사용해야 하는지 아는 것이 중요합니다. 다양한 시각화를 사용하여 발견한 내용을 친구와 가족에게 발표하고 특정 시나리오에 더 적합한 시각화를 찾아보세요.

Tableau

 
Tableau는 멋지고 매력적인 비주얼리제이션으로 꽤 유명해졌습니다. Pavleenk Kaur는 Tableau에서 사용되는 가장 일반적인 시각화. 데이터를 연결하는 방법을 안내하고 다양한 옵션의 색상 의미를 설명하고 다양한 시각화의 장단점을 설명하여 도구 인터페이스를 이해하는 데 도움을 줍니다.

기타 BI 도구

 
Microsoft의 Power BI는 대시보드, 보고서 생성 및 예측 분석 표시에 적합합니다. 중앙 집중식 데이터 보고 시스템 역할을 하는 데 탁월합니다. 전 세계적으로 200개 이상의 조직에서 이 도구를 사용하고 있으므로 데이터 과학 작업에 지원할 때 익숙해지면 좋은 도구입니다. 이것을 확인하십시오 데이터 시각화 도구의 상위 목록 데이터 과학자를 위해.

 
추천 엔진은 실제로 데이터 과학의 좋은 예입니다. 고객이 텐트를 샀다면 침낭, 헤드램프, 스토브 등을 사고 싶어 하겠죠? 추천 엔진은 각 행 값이 각 열 값과 동일한 컨텍스트에 나타나는 횟수를 나타내는 동시 발생 행렬의 아이디어를 기반으로 합니다.

추천 엔진 배포는 데이터 과학자의 모든 기술을 개발하기 위한 마지막 프로젝트입니다. 데이터 과학의 이 영역은 Django를 사용하여 온라인으로 앱을 만드는 것과 같이 소프트웨어 개발자의 기술 및 책임과 많이 겹칩니다. Django 또는 기타 프레임워크를 사용하여 생성된 것과 같은 앱을 클라우드(AWS, Azure 또는 Google Cloud)에 배포할 수 있습니다. 이러한 클라우드 서비스는 앱을 배포하고 계속 실행하는 데 필요한 서버와 데이터베이스를 제공할 수 있습니다.

출판되지 않은 책과 마찬가지로 데이터를 소비하고 실시간 예측을 출력하거나 분석을 조정하는 지점에 도달하지 않는 데이터 과학 모델은 훨씬 덜 가치가 있습니다. 배포 및 유지 관리는 항상 최종 목표여야 합니다. 추천 엔진을 구축하여 지금 이것을 배우면 다음 데이터 과학 작업에서 비즈니스 영향과 인지된 성능을 극대화하는 데 도움이 됩니다.

 
데이터 과학 개발 주기를 구성하는 기본 빌딩 블록을 이해하는 것이 중요합니다. 클라우드 솔루션을 포함하도록 이해를 확장하는 것이 좋습니다. 데이터 과학 모델은 실시간 예측을 할 수 있고, 모델을 업데이트하기 위해 계속 데이터를 소비하고, 이해 관계자가 이러한 모든 통찰력을 사용할 수 있는 경우에만 유용합니다.

스스로 시작하려고 하든 데이터 과학 회사 기술 대기업에서 데이터 과학자로 일하고 싶다면 클라우드 환경에서 데이터 과학자의 작업을 편안하게 수행해야 합니다. 모든 클라우드 솔루션 제공업체의 무료 계층을 사용하면 지금 이러한 도구에 대해 깊이 파고들지 않을 변명의 여지가 없습니다. 초보자이고 첫 번째 데이터 과학 또는 데이터 분석 작업을 시작하려는 경우 다음을 수행하십시오. 19가지 데이터 과학 프로젝트 아이디어 당신을 도울 수 있습니다. 그들 중 하나 또는 모두를 선택하십시오. 가장 재미있어 보이는 것을 선택하십시오.

 
 
네이트 로시디 데이터 과학자이자 제품 전략 분야의 전문가입니다. 그는 분석을 가르치는 겸임 교수이기도 하며, 스트라타스크래치, 데이터 사이언티스트가 상위 기업의 실제 인터뷰 질문을 통해 인터뷰를 준비하는 데 도움이 되는 플랫폼입니다. 그와 연결 트위터: StrataScratch or 링크드인.
 

spot_img

최신 인텔리전스

spot_img