제퍼넷 로고

당신을 고용할 20가지 기계 학습 프로젝트

시간

당신을 고용할 20가지 기계 학습 프로젝트

기계 학습 및 데이터 과학 구직 시장에 진출하려면 특히 온라인 과정과 부트캠프를 통해 독학으로 배운 기술의 숙련도를 입증해야 합니다. 프로젝트 포트폴리오는 새로운 기술을 연습하고 직원이 경쟁에서 당신을 고용해야 한다는 설득력 있는 증거를 제공하는 좋은 방법입니다.


By 쿠 쉬부 샤, ProjectPro 콘텐츠 관리자.

AI와 머신 러닝 산업은 그 어느 때보다 호황을 누리고 있습니다. 2021년을 기준으로 기업 전반에 걸친 AI 사용의 증가는 2.9조 XNUMX억 달러의 비즈니스 가치를 창출할 것입니다. AI는 전 세계의 많은 산업을 자동화하고 운영 방식을 변경했습니다. 대부분의 대기업은 워크플로의 생산성을 극대화하기 위해 AI를 통합하고 있으며, 마케팅 및 의료와 같은 산업은 AI의 통합으로 인해 패러다임이 전환되었습니다.

이미지 출처 : Unsplash

이 때문에 지난 몇 년 동안 AI 전문가에 대한 수요가 증가했습니다. 100년부터 2015년까지 AI 및 머신 러닝 관련 채용 공고가 거의 2018% 증가했습니다. 이 수치는 그 이후로 증가했으며 2021년에는 증가할 것으로 예상됩니다.

머신 러닝 업계에 진출하려는 경우 좋은 소식은 사용 가능한 일자리가 부족하지 않다는 것입니다. 기업에는 기계 학습으로의 전환을 선도할 수 있는 재능 있는 인력이 필요합니다. 그러나 취업 시장은 데이터 산업에 뛰어들고자 하는 사람들이 잠입하고 있다. 머신 러닝을 배우고자 하는 학생들을 대상으로 하는 특정 학위 프로그램이 없기 때문에 많은 ML 실무자 지망생이 독학을 하고 있습니다.

Andrew Ng의 기계 학습 온라인 과정에는 4만 명이 넘는 학생이 등록되어 있습니다.

불행히도 온라인 과정에 등록하거나 기계 학습 Bootcamp를 수강하는 것은 이론적인 개념을 배우는 데 도움이 되지만 업계 취업을 준비하는 데 도움이 되지는 않습니다. 이론을 배운 후에 수행해야 할 실습 작업이 훨씬 더 많습니다. 기계 학습 알고리즘의 기본 사항을 알고 있다고 가정해 보겠습니다. 회귀 및 분류 모델이 작동하는 방식을 이해하고 다양한 유형의 클러스터링 방법을 알고 있다고 가정해 보겠습니다.

실제 문제를 해결하기 위해 배운 기술을 어떻게 연습할 것인가? 간단한 대답은 연습, 연습 및 다양한 연습입니다. 기계 학습 프로젝트.

이론적 개념 학습을 마치면 AI 및 기계 학습 프로젝트 작업을 시작해야 합니다. 이 프로젝트는 현장에서 기술을 연마하는 데 필요한 연습을 제공하는 동시에 기계 학습 포트폴리오에 큰 가치를 더합니다.

많은 고민 없이 포트폴리오를 보기 좋게 만들 뿐만 아니라 기계 학습 기술을 크게 향상시킬 몇 가지 ML 프로젝트 아이디어를 살펴보겠습니다. 이것은 학생, 기계 학습 실무자 지망생 및 비기술적 영역의 개인을 위한 최고의 기계 학습 프로젝트의 선별된 목록입니다. 코딩과 머신 러닝 기술에 대한 노하우만 있다면 배경에 관계없이 이러한 프로젝트를 수행할 수 있습니다. 이것은 초급 및 고급 수준의 기계 학습 프로젝트 목록입니다.

데이터 업계가 처음이고 실제 프로젝트에 대한 경험이 거의 없는 경우 더 어려운 프로젝트로 이동하기 전에 초보자 수준의 ML 프로젝트부터 시작하십시오.

초보자를 위한 머신 러닝 프로젝트

1. 캐글 타이타닉 예측

이 목록의 첫 번째 프로젝트는 수행할 수 있는 가장 간단한 ML 프로젝트 중 하나입니다. 이 프로젝트는 데이터 산업의 초보자를 완료하는 데 권장됩니다. Titanic 데이터 세트는 Kaggle에서 사용할 수 있으며 다운로드 링크는 아래에 있습니다.

이 데이터 세트는 타이타닉호를 타고 여행한 승객의 데이터입니다. 승객 연령, 티켓 요금, 객실 및 성별과 같은 세부 정보가 있습니다. 이 정보를 바탕으로 이 승객의 생존 여부를 예측해야 합니다.

이것은 간단한 이진 분류 문제이며 특정 승객이 생존했는지 예측하기만 하면 됩니다. 이 데이터 세트의 가장 좋은 점은 모든 사전 처리가 자동으로 수행된다는 것입니다. 머신 러닝 모델을 훈련시키기 위한 훌륭하고 깨끗한 데이터 세트가 있습니다.

이것은 분류 문제이므로 로지스틱 회귀, 의사 결정 트리 및 랜덤 포레스트와 같은 알고리즘을 사용하여 예측 모델을 구축하도록 선택할 수 있습니다. 이 초보자 수준의 기계 학습 프로젝트에 대해 XGBoost 분류기와 같은 그래디언트 부스팅 모델을 선택하여 더 나은 결과를 얻을 수도 있습니다.

데이터 세트 : Kaggle 타이타닉 데이터세트

2. 집값 예측

집값 데이터는 기계 학습의 초보자인 경우 시작하기에 좋습니다. 이 프로젝트는 Kaggle에서 사용 가능한 주택 가격 데이터 세트를 사용합니다. 이 데이터 세트의 대상 변수는 특정 주택의 가격으로, 주택 면적, 침실 수, 욕실 수 및 유틸리티와 같은 정보를 사용하여 예측해야 합니다.

이는 회귀 문제이며 선형 회귀와 같은 기술을 사용하여 모델을 작성할 수 있습니다. 또한 고급 접근 방식을 취하고 랜덤 포레스트 회귀 또는 그래디언트 부스팅을 사용하여 주택 가격을 예측할 수 있습니다.

이 데이터 세트에는 대상 변수를 제외하고 80개의 열이 있습니다. 너무 많은 변수를 추가하면 모델의 성능이 저하될 수 있으므로 피처를 직접 선택하려면 일부 차원 축소 기술을 사용해야 합니다.

또한 데이터 세트에는 범주형 변수가 많이 있으므로 원-핫 인코딩 또는 레이블 인코딩과 같은 기술을 사용하여 적절하게 처리해야 합니다.

모델을 구축한 후 Kaggle의 주택 가격 경쟁이 아직 열려 있으므로 예측을 제출할 수 있습니다. 경쟁자가 달성한 최고의 RMSE는 0이며 많은 사람들이 회귀 및 그래디언트 부스팅 기술의 도움으로 0.15와 같은 좋은 결과를 얻었습니다.

데이터 세트 : Kaggle 주택 가격 예측 데이터 세트

3. 와인 품질 예측

와인 품질 예측 데이터 세트는 데이터 업계의 초보자에게도 매우 인기가 있습니다. 이 프로젝트에서는 고정 산도, 휘발성 산도, 알코올 및 밀도를 사용하여 레드 와인의 품질을 예측합니다.

이것은 분류 또는 회귀 문제로 취급될 수 있습니다. NS 와인 품질 데이터 세트에서 예측해야 하는 변수의 범위는 0–10이므로 예측할 회귀 모델을 작성할 수 있습니다. 취할 수 있는 또 다른 접근 방식은 값(0–10)을 이산 간격으로 나누고 범주형 변수로 변환하는 것입니다. 세 가지 범주를 만들 수 있습니다. 예를 들면 다음과 같습니다. 낮음, 중간, 과 높은.

그런 다음 의사결정 트리 분류기 또는 분류 모델을 구축하여 예측할 수 있습니다. 회귀 및 분류 기계 학습 기술을 연습하기 위한 비교적 깨끗하고 간단한 데이터 세트입니다.

데이터 세트 : Kaggle 레드 와인 품질 데이터 세트

4. 심장병 예측

의료 산업의 데이터 세트를 탐색하려는 경우 시작하기에 좋은 초보자 수준의 데이터 세트입니다. 이 데이터 세트는 CHD(관상 심장 질환)의 10년 위험을 예측하는 데 사용됩니다. 이 데이터 세트의 종속 변수는 당뇨병, 흡연, 고혈압 및 높은 콜레스테롤 수치를 포함한 심장 질환의 위험 요소입니다.

독립 변수는 CHD의 10년 위험입니다. 이진 분류 문제이며 목표 변수는 심장 질환이 발병하지 않은 환자는 0 또는 1–0이고 발병한 환자는 1입니다. 이 데이터 세트에서 일부 기능 선택을 수행하여 심장 위험에 가장 많이 기여하는 기능을 식별할 수 있습니다. 그런 다음 분류 모델을 독립 변수에 맞출 수 있습니다.

이 데이터 세트의 많은 환자가 지원 심장병이 발병합니다. 불균형 데이터 세트는 오버샘플링, 가중치 조정 또는 언더샘플링과 같은 올바른 기능 엔지니어링 기술을 사용하여 처리해야 합니다. 적절하게 처리하지 않으면 각 데이터 포인트에 대한 다수 클래스를 단순히 예측하고 다음과 같은 환자를 식별할 수 없는 모델이 됩니다. 한 심장병이 발병합니다. 이것은 기능 엔지니어링 및 기계 학습 기술을 연습할 수 있는 훌륭한 데이터 세트입니다.

데이터 세트 : Kaggle 심장병 데이터세트

5. MNIST 숫자 분류

  MNIST 데이터 세트는 딥 러닝 분야로의 디딤돌입니다. 이 데이터 세트는 0에서 9까지의 손으로 쓴 숫자의 회색조 이미지로 구성되어 있습니다. 귀하의 작업은 딥 러닝 알고리즘을 사용하여 숫자를 식별하는 것입니다. 이것은 XNUMX개의 가능한 출력 클래스가 있는 다중 클래스 분류 문제입니다. CNN(Convolutional Neural Network)을 사용하여 이 분류를 수행할 수 있습니다.

MNIST 데이터 세트는 Python의 Keras 라이브러리 내에 구축됩니다. Keras를 설치하고 라이브러리를 가져오고 데이터 세트를 로드하기만 하면 됩니다. 이 데이터 세트에는 약 60,000개의 이미지가 있으므로 이 이미지의 약 80%는 교육에, 나머지 20%는 테스트에 사용할 수 있습니다.

데이터 세트 : Kaggle Digit Recognizer 데이터세트

6. 트위터 데이터의 감정 분석

Kaggle에는 많은 Twitter 감정 분석 데이터 세트가 있습니다. 가장 인기 있는 데이터 세트 중 하나는 140만 개의 사전 처리된 트윗을 포함하는 Sentiment1.6입니다. 감정 분석을 처음 접하는 경우 시작할 수 있는 훌륭한 데이터 세트입니다.

이 트윗에는 주석이 달렸고 대상 변수는 감정입니다. 이 열의 고유 값은 0(음수), 2(중립) 및 4(양수)입니다.

이러한 트윗을 사전 처리하고 벡터로 변환한 후 분류 모델을 사용하여 관련 감정을 훈련할 수 있습니다. 이 작업에 로지스틱 회귀, 의사 결정 트리 분류기 또는 XGBoost 분류기와 같은 알고리즘을 사용할 수 있습니다.

또 다른 대안은 LSTM과 같은 딥 러닝 모델을 사용하여 감정 예측을 제시하는 것입니다. 그러나 이것은 약간 더 도전적인 접근 방식이며 고급 프로젝트 범주에 속합니다.

이 레이블이 지정된 데이터 세트를 향후 감정 분석 작업의 기반으로 사용할 수도 있습니다.

감정 분석을 수집하고 수행하려는 트윗이 있는 경우 이전에 감정140에 대해 훈련된 모델을 사용하여 미래를 예측할 수 있습니다.

데이터 세트 : Kaggle Sentiment140 데이터세트

7. 피마 인디언 당뇨병 예측

Pima Indian Diabetes Dataset은 진단 측정을 기반으로 환자에게 당뇨병이 있는지 여부를 예측하는 데 사용됩니다.

BMI, 연령 및 인슐린과 같은 변수를 기반으로 모델은 환자의 당뇨병을 예측합니다. 이 데이터세트에는 XNUMX개의 변수(XNUMX개의 독립 변수와 XNUMX개의 대상 변수)가 있습니다.

대상 변수는 '당뇨병', 따라서 당뇨병이 있으면 1을 예측하고 당뇨병이 없으면 0을 예측합니다.

이것은 로지스틱 회귀, 의사 결정 트리 분류기 또는 랜덤 포레스트 분류기와 같은 모델을 실험하기 위한 분류 문제입니다.

이 데이터 세트의 모든 독립 변수는 숫자이므로 최소한의 기능 엔지니어링 경험이 있는 경우 시작하기에 좋은 데이터 세트입니다.

이것은 초보자를 위한 Kaggle 데이터셋입니다. Python 및 R로 솔루션을 코딩하는 과정을 안내하는 온라인 자습서가 많이 있습니다. 이 노트북 자습서는 더 복잡한 프로젝트로 이동할 수 있도록 학습하고 손을 더럽힐 수 있는 좋은 방법입니다.

데이터 세트 : Kaggle Pima 인도 당뇨병 데이터 세트

8. 유방암 분류

Kaggle의 유방암 분류 데이터 세트는 기계 학습 및 AI 기술을 연습하는 또 다른 훌륭한 방법입니다.

실제 세계에서 대부분의 지도 머신 러닝 문제는 이와 같은 분류 문제입니다. 유방암 식별의 핵심 과제는 양성(비암성) 종양과 악성(암성) 종양을 구별할 수 없다는 것입니다. 데이터 세트에는 종양의 "radius_mean" 및 "area_mean"과 같은 변수가 있으며 종양이 암인지 아닌지 이러한 특징을 기반으로 분류해야 합니다. 이 데이터 세트는 중요한 데이터 사전 처리를 수행할 필요가 없기 때문에 상대적으로 작업하기 쉽습니다. 또한 균형 잡힌 데이터 세트이므로 많은 기능 엔지니어링을 수행할 필요가 없으므로 작업을 보다 쉽게 ​​관리할 수 있습니다.

이 데이터 세트에서 간단한 로지스틱 회귀 분류기를 훈련하면 0.90의 정확도를 얻을 수 있습니다.

데이터 세트 : Kaggle 유방암 분류 데이터 세트

9. TMDB 박스오피스 예측

이 Kaggle 데이터 세트는 회귀 기술을 연습할 수 있는 좋은 방법입니다. 그것은 약 7000개의 영화로 구성되어 있으며 영화의 수익을 예측하기 위해 존재하는 변수를 사용해야 할 것입니다.

현재 데이터 포인트에는 출연진, 제작진, 예산, 언어 및 출시 날짜가 포함됩니다. 데이터 세트에는 23개의 변수가 있으며 그 중 하나는 대상 변수입니다.

기본 선형 회귀 모델은 0.60 이상의 R-제곱을 제공할 수 있으므로 이를 기준선 예측 모델로 사용할 수 있습니다. XGBoost 회귀 또는 Light GBM과 같은 기술을 사용하여 이 점수를 이기십시오.

일부 열에는 중첩된 사전에 데이터가 있으므로 이 데이터 집합은 이전 데이터 집합보다 약간 더 복잡합니다. 이 데이터를 사용 가능한 형식으로 추출하여 모델을 훈련시키려면 몇 가지 추가 전처리를 수행해야 합니다.

수익 예측은 영화 산업 이외의 다양한 영역에 비즈니스 가치를 제공하므로 포트폴리오에 표시할 수 있는 훌륭한 프로젝트입니다.

데이터 세트 : Kaggle TMDB 박스 오피스 예측 데이터 세트

10. 파이썬에서의 고객 세분화

Kaggle의 고객 세분화 데이터 세트는 비지도 머신 러닝을 시작하는 좋은 방법입니다. 이 데이터 세트는 연령, 성별, 연간 수입 및 지출 점수와 같은 고객 세부 정보로 구성됩니다.

고객 세그먼트를 구축하려면 이러한 변수를 사용해야 합니다. 유사한 고객은 유사한 클러스터로 그룹화해야 합니다. 이 작업에 K-평균 클러스터링 또는 계층적 클러스터링과 같은 알고리즘을 사용할 수 있습니다. 고객 세분화 모델은 비즈니스 가치를 제공할 수 있습니다.

기업은 종종 고객을 분리하여 각 고객 유형에 대해 서로 다른 마케팅 기법을 제시하려고 합니다.

이 데이터 세트의 주요 목표는 다음과 같습니다.

  • 머신 러닝 기술을 사용하여 고객 세분화 달성
  • 다양한 마케팅 전략을 위한 타겟 고객 식별
  • 마케팅 전략이 실제 세계에서 어떻게 작동하는지 이해

이 작업을 위한 클러스터링 모델을 구축하면 포트폴리오를 돋보이게 하는 데 도움이 될 수 있으며 마케팅 업계에서 AI 관련 직업을 구하려는 경우 세분화는 훌륭한 기술입니다.

데이터 세트 : Kaggle Mall 고객 세분화 데이터 세트

이력서를 위한 중급/고급 머신 러닝 프로젝트

위에 나열된 것과 같은 간단한 기계 학습 프로젝트 작업을 마치면 더 어려운 프로젝트로 이동할 수 있습니다.

1. 매출 예측

시계열 예측은 업계에서 매우 자주 사용되는 기계 학습 기술입니다. 미래 판매를 예측하기 위해 과거 데이터를 사용하는 것은 많은 비즈니스 사용 사례를 가지고 있습니다. Kaggle Demand Forecasting 데이터세트를 사용하여 이 프로젝트를 연습할 수 있습니다.

이 데이터 세트에는 5년 간의 판매 데이터가 있으며 향후 50개월 동안의 판매를 예측해야 합니다. 데이터 세트에는 XNUMX개의 서로 다른 상점이 나열되어 있으며 각 상점에는 XNUMX개의 항목이 있습니다.

판매를 예측하기 위해 ARIMA, 벡터 자기회귀 또는 딥 러닝과 같은 다양한 방법을 시도할 수 있습니다. 이 프로젝트에 사용할 수 있는 한 가지 방법은 매월 판매 증가를 측정하고 기록하는 것입니다. 그런 다음 전월 매출과 이번 달 매출의 차이를 기반으로 모델을 구축합니다. 휴일 및 계절성과 같은 요인을 고려하면 기계 학습 모델의 성능을 향상시킬 수 있습니다.

데이터 세트 : Kaggle Store 품목 수요 예측

2. 고객 서비스 챗봇

고객 서비스 챗봇은 AI 및 머신 러닝 기술을 사용하여 고객에게 응답하고 인간 대리인의 역할을 합니다. 챗봇은 고객의 요구를 만족시키기 위해 간단한 질문에 답할 수 있어야 합니다.

현재 세 가지 종류의 챗봇을 만들 수 있습니다.

  • 규칙 기반 챗봇 — 이러한 챗봇은 지능적이지 않습니다. 사전 정의된 규칙 집합이 제공되고 이러한 규칙을 기반으로 사용자에게만 응답합니다. 일부 챗봇은 사전 정의된 질문과 답변 세트와 함께 제공되며 이 영역을 벗어나는 쿼리에는 답변할 수 없습니다.
  • 독립 챗봇 — 독립 챗봇은 기계 학습을 활용하여 사용자의 요청을 처리 및 분석하고 그에 따라 응답을 제공합니다.
  • NLP 챗봇 — 이 챗봇은 단어의 패턴을 이해하고 다양한 단어 조합을 구별할 수 있습니다. 학습한 단어 패턴을 기반으로 다음에 할 말을 생각해 낼 수 있기 때문에 세 가지 챗봇 유형 중 가장 발전된 유형입니다.

NLP 챗봇은 흥미로운 기계 학습 프로젝트 아이디어입니다. 모델을 훈련하려면 기존 단어 모음이 필요하며 이를 수행하는 Python 라이브러리를 쉽게 찾을 수 있습니다. 또한 모델을 훈련시키려는 질문 및 답변 쌍 목록이 있는 사전 정의된 사전을 가질 수 있습니다.

3. 야생동물 탐지 시스템

야생 동물을 자주 목격하는 지역에 거주하는 경우 개체 감지 시스템을 구현하여 해당 지역에서 야생 동물의 존재를 식별하는 것이 도움이 됩니다. 다음 단계에 따라 다음과 같은 시스템을 구축하십시오.

  • 모니터링하려는 영역에 카메라를 설치합니다.
  • 모든 비디오 장면을 다운로드하고 저장하십시오.
  • 들어오는 이미지를 분석하고 야생 동물을 식별하는 Python 애플리케이션을 만듭니다.

Microsoft는 야생 동물 카메라에서 수집한 데이터를 사용하여 Image Recognition API를 구축했습니다. 그들은 이러한 목적을 위해 MegaDetector라고 하는 오픈 소스 사전 훈련 모델을 출시했습니다.

Python 애플리케이션에서 이 사전 훈련된 모델을 사용하여 수집된 이미지에서 야생 동물을 식별할 수 있습니다. 이것은 지금까지 언급된 가장 흥미로운 ML 프로젝트 중 하나이며 이 목적을 위해 사전 훈련된 모델을 사용할 수 있기 때문에 구현이 매우 간단합니다.

API : 메가디텍터

4. Spotify 음악 추천 시스템

Spotify는 AI를 사용하여 사용자에게 음악을 추천합니다. Spotify에서 공개적으로 사용 가능한 데이터를 기반으로 추천 시스템을 구축할 수 있습니다.

Spotify에는 오디오 데이터를 검색하는 데 사용할 수 있는 API가 있습니다. 출시 연도, 키, 인기도 및 아티스트와 같은 기능을 찾을 수 있습니다. Python에서 이 API에 액세스하려면 Spotipy라는 라이브러리를 사용할 수 있습니다.

약 600K 행이 있는 Kaggle의 Spotify 데이터 세트를 사용할 수도 있습니다. 이러한 데이터 세트를 사용하여 각 사용자가 좋아하는 음악가에 대한 최상의 대안을 제안할 수 있습니다. 또한 각 사용자가 선호하는 콘텐츠 및 장르를 기반으로 노래를 추천할 수 있습니다.

이 추천 시스템은 K-Means 클러스터링을 사용하여 구축할 수 있습니다. 유사한 데이터 포인트가 그룹화됩니다. 클러스터 내 거리가 최소인 노래를 최종 사용자에게 추천할 수 있습니다.

추천 시스템을 구축한 후에는 이를 간단한 Python 앱으로 변환하여 배포할 수도 있습니다. 사용자가 Spotify에 좋아하는 노래를 입력하도록 한 다음, 좋아하는 노래와 가장 유사한 모델 추천을 화면에 표시할 수 있습니다.

데이터 세트 : Kaggle Spotify 데이터세트

5. 장바구니 분석

장바구니 분석은 소매업체에서 함께 판매할 수 있는 품목을 식별하는 데 사용하는 인기 있는 기술입니다.

예 :

몇 년 전 한 연구 분석가는 맥주 판매와 기저귀 판매 사이의 상관 관계를 확인했습니다. 고객이 맥주를 사러 가게에 들어갈 때마다 기저귀도 함께 사는 경우가 대부분이었다.

이에 매장에서는 매출 증대를 위한 마케팅 전략으로 맥주와 기저귀를 같은 통로에서 함께 판매하기 시작했다. 그리고 효과가 있었습니다.

맥주와 기저귀는 남성이 함께 구매하는 경우가 많아 높은 상관관계가 있다고 가정하였다. 남성들은 가족을 위한 몇 가지 다른 가정용품(기저귀 포함)과 함께 맥주를 사러 가게에 들어갈 것입니다. 이것은 매우 불가능한 상관관계처럼 보이지만 실제로 일어났습니다.

장바구니 분석은 기업이 함께 자주 구매하는 품목 간의 숨겨진 상관 관계를 식별하는 데 도움이 될 수 있습니다. 그런 다음 이러한 상점은 사람들이 더 쉽게 찾을 수 있는 방식으로 품목을 배치할 수 있습니다.

Kaggle의 Market Basket Optimization 데이터 세트를 사용하여 모델을 빌드하고 훈련할 수 있습니다. 시장 바구니 분석을 수행하는 데 가장 일반적으로 사용되는 알고리즘은 Apriori 알고리즘입니다.

데이터 세트 : Kaggle Market Basket 최적화 데이터세트

6. NYC 택시 운행 시간

데이터 세트에는 택시 이동의 시작 및 종료 좌표, 시간 및 승객 수를 포함하는 변수가 있습니다. 이 ML 프로젝트의 목표는 이러한 모든 변수로 여행 시간을 예측하는 것입니다. 회귀 문제입니다.

시간 및 좌표와 같은 변수는 적절하게 사전 처리되고 이해할 수 있는 형식으로 변환되어야 합니다. 이 프로젝트는 보이는 것처럼 간단하지 않습니다. 이 데이터 세트에는 예측을 더 복잡하게 만드는 일부 이상값도 있으므로 기능 엔지니어링 기술로 이를 처리해야 합니다.

이 NYC Taxi Trip Kaggle Competition에 대한 평가 기준은 RMSLE 또는 Root Mean Squared Log Error입니다. Kaggle의 최상위 제출은 0.29의 RMSLE 점수를 받았고 Kaggle의 기본 모델은 0.89의 RMSLE를 받았습니다.

모든 회귀 알고리즘을 사용하여 이 Kaggle 프로젝트를 해결할 수 있지만 이 과제의 최고 실적 경쟁자는 그래디언트 부스팅 모델 또는 딥 러닝 기술을 사용했습니다.

데이터 세트 : Kaggle NYC Taxi Trip Duration 데이터 세트

7. 실시간 스팸 감지

이 프로젝트에서는 기계 학습 기술을 사용하여 스팸(불법)과 햄(합법) 메시지를 구별할 수 있습니다.

이를 위해 Kaggle SMS 스팸 수집 데이터 세트를 사용할 수 있습니다. 이 데이터 세트에는 스팸 또는 햄으로 분류된 약 5개의 메시지 세트가 포함되어 있습니다.

실시간 스팸 탐지 시스템을 구축하기 위해 다음 단계를 수행할 수 있습니다.

  • Kaggle의 SMS 스팸 수집 데이터 세트를 사용하여 기계 학습 모델을 훈련합니다.
  • Python으로 간단한 대화방 서버를 만듭니다.
  • 채팅방 서버에 기계 학습 모델을 배포하고 들어오는 모든 트래픽이 모델을 통과하는지 확인합니다.
  • 메시지가 햄으로 분류된 경우에만 통과하도록 허용합니다. 스팸인 경우 대신 오류 메시지를 반환합니다.

기계 학습 모델을 구축하려면 먼저 Kaggle의 SMS 스팸 수집 데이터 세트에 있는 문자 메시지를 사전 처리해야 합니다. 그런 다음 이러한 메시지를 단어 모음으로 변환하여 예측을 위해 분류 모델에 쉽게 전달할 수 있도록 합니다.

데이터 세트 : Kaggle SMS 스팸 수집 데이터 세트

8. Myers-Briggs 성격 예측 앱

사용자의 말을 기반으로 사용자의 성격 유형을 예측하는 앱을 만들 수 있습니다.

Myers-Briggs 유형 지표는 개인을 16가지 다른 성격 유형으로 분류합니다. 그것은 세계에서 가장 인기 있는 성격 테스트 중 하나입니다.

인터넷에서 자신의 성격 유형을 찾으려고 하면 온라인 퀴즈를 많이 찾을 수 있습니다. 약 20~30개의 질문에 답하면 성격 유형이 지정됩니다.

하지만 이 프로젝트에서는 머신 러닝을 사용하여 한 문장만으로 모든 사람의 성격 유형을 예측할 수 있습니다.

이를 달성하기 위해 취할 수 있는 단계는 다음과 같습니다.

  • 다중 클래스 분류 모델을 빌드하고 Kaggle의 Myers-Briggs 데이터 세트에서 학습시키십시오. 여기에는 데이터 사전 처리(중단어 및 불필요한 문자 제거) 및 일부 기능 엔지니어링이 포함됩니다. 이를 위해 로지스틱 회귀와 같은 얕은 학습 모델이나 LSTM과 같은 심층 학습 모델을 사용할 수 있습니다.
  • 사용자가 원하는 문장을 입력할 수 있는 응용 프로그램을 만들 수 있습니다.
  • 기계 학습 모델 가중치를 저장하고 모델을 앱과 통합합니다. 최종 사용자가 단어를 입력한 후 모델이 예측한 후 화면에 성격 유형을 표시합니다.

데이터 세트 : Kaggle MBTI 유형 데이터 세트

9. 기분 인식 시스템 + 추천 시스템

슬프고 기분이 좋아지는 재미있는 것을 봐야 한다고 느낀 적이 있습니까? 아니면 너무 좌절해서 긴장을 풀고 편안한 것을 봐야 한다고 느낀 적이 있습니까?

이 프로젝트는 두 개의 소규모 프로젝트를 결합한 것입니다.

라이브 웹 영상을 기반으로 사용자의 기분을 인식하고 사용자의 표정을 기반으로 영화를 추천하는 앱을 구축할 수 있습니다.

이를 구축하기 위해 다음 단계를 수행할 수 있습니다.

  • 라이브 비디오 피드를 가져올 수 있는 앱을 만듭니다.
  • Python의 얼굴 인식 API를 사용하여 비디오 피드에 있는 물체의 얼굴과 감정을 감지합니다.
  • 이러한 감정을 다양한 범주로 분류한 후 추천 시스템 구축을 시작합니다. 이것은 각 감정에 대해 하드코딩된 값 집합일 수 있습니다. 즉, 추천을 위해 기계 학습을 포함할 필요가 없습니다.
  • 앱 빌드가 완료되면 Heroku, Dash 또는 웹 서버에 배포할 수 있습니다.

API : 얼굴 인식 API

10. 유튜브 댓글 감정 분석

이 프로젝트에서는 인기 유튜버의 전반적인 감성을 분석하는 대시보드를 만들 수 있습니다.

2억 명이 넘는 사용자가 한 달에 한 번 이상 YouTube 동영상을 시청합니다. 인기 있는 YouTube 사용자는 콘텐츠로 수천억 건의 조회수를 기록합니다. 그러나 이러한 인플루언서 중 상당수는 과거 논란으로 인해 비난을 받았고 대중의 인식은 끊임없이 변화하고 있습니다.

감정 분석 모델을 구축하고 대시보드를 만들어 시간 경과에 따른 유명 인사 주변의 감정을 시각화할 수 있습니다.

이를 구축하기 위해 다음 단계를 수행할 수 있습니다.

  • 분석하고 싶은 유튜버의 동영상 댓글을 스크랩하세요.
  • 사전 훈련된 감정 분석 모델을 사용하여 각 댓글에 대한 예측을 수행합니다.
  • 대시보드에서 모델의 예측을 시각화합니다. Dash(Python) 또는 Shiny(R)와 같은 라이브러리를 사용하여 대시보드 앱을 만들 수도 있습니다.
  • 사용자가 시간대, YouTube 사용자 이름 및 비디오 장르별로 감정을 필터링할 수 있도록 하여 대시보드를 대화형으로 만들 수 있습니다.

API : YouTube 댓글 스크레이퍼

요약

기계 학습 산업은 규모가 크고 기회로 가득 차 있습니다. 정식 교육 배경 없이 업계에 뛰어들고 싶다면 해당 업무를 수행하는 데 필요한 기술을 보유하고 있음을 보여주는 가장 좋은 방법은 프로젝트를 통한 것입니다.

위에 나열된 대부분의 프로젝트의 기계 학습 측면은 매우 간단합니다. 머신 러닝의 민주화로 인해 사전 훈련된 모델과 API를 통해 모델 구축 프로세스를 쉽게 달성할 수 있습니다.

Keras 및 FastAI와 같은 오픈 소스 인공 지능 프로젝트도 모델 구축 프로세스의 속도를 높이는 데 도움이 되었습니다. 이러한 기계 학습의 까다로운 부분과 데이터 과학 프로젝트 데이터 수집, 사전 처리 및 배포입니다. 기계 학습 분야에 취업하면 대부분의 알고리즘은 구축하기가 매우 간단합니다. 판매 예측 모델을 만드는 데 하루나 이틀 밖에 걸리지 않습니다. 적절한 데이터 소스를 찾고 모델을 프로덕션에 적용하여 비즈니스 가치를 도출하는 데 대부분의 시간을 할애합니다.

실물. 허가를 받아 다시 게시했습니다.

관련 :


PlatoAi. Web3 재창조. 데이터 인텔리전스 증폭.
액세스하려면 여기를 클릭하십시오.

출처: https://www.kdnuggets.com/2021/09/20-machine-learning-projects-hired.html

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?