제퍼넷 로고

상위 10개 기계 학습 알고리즘에 대한 초보자 가이드 – KDnuggets

시간

상위 10개 기계 학습 알고리즘에 대한 초보자 가이드
작성자 별 이미지
 

데이터 과학을 뒷받침하는 분야 중 하나는 머신러닝입니다. 따라서 데이터 과학에 입문하고 싶다면 머신러닝을 이해하는 것이 가장 먼저 취해야 할 단계 중 하나입니다.

하지만 어디서부터 시작하나요? 두 가지 주요 유형의 기계 학습 알고리즘 간의 차이점을 이해하는 것부터 시작합니다. 그 후에야 초보자로서 배우기 위해 우선 순위 목록에 있어야 하는 개별 알고리즘에 대해 이야기할 수 있습니다.

알고리즘 간의 주요 차이점은 학습 방법에 따라 다릅니다.

 

상위 10개 기계 학습 알고리즘에 대한 초보자 가이드
작성자 별 이미지
 

지도 학습 알고리즘 훈련을 받았습니다 레이블이 지정된 데이터 세트. 이 데이터 세트는 포함된 일부 데이터가 이미 정답으로 분류되어 있기 때문에 학습을 위한 감독(따라서 이름) 역할을 합니다. 이 입력을 기반으로 알고리즘은 학습하고 해당 학습을 나머지 데이터에 적용할 수 있습니다.

반면에, 미국에서 체류를 연장하고자 이전의 승인을 갱신하려던 비지도 학습 알고리즘 배우다 라벨이 지정되지 않은 데이터세트즉, 인간이 지시하지 않고도 데이터에서 패턴을 찾는 데 참여한다는 의미입니다.

에 대해 자세히 읽을 수 있습니다. 기계 학습 알고리즘 그리고 학습의 종류.

다른 유형의 기계 학습도 있지만 초보자에게는 적합하지 않습니다.

각 유형의 기계 학습 내에서 두 가지 주요 문제를 해결하기 위해 알고리즘이 사용됩니다.

다시 말하지만, 몇 가지 작업이 더 있지만 초보자를 위한 작업은 아닙니다.

 

상위 10개 기계 학습 알고리즘에 대한 초보자 가이드
작성자 별 이미지

지도 학습 작업

리그레션 예측하는 작업이다 수치라는 연속 결과 변수 또는 종속 변수. 예측은 예측 변수 또는 독립 변수를 기반으로 합니다.

유가나 기온을 예측하는 것을 생각해 보세요.

분류 을 예측하는 데 사용됩니다. 카테고리 (클래스) 입력 데이터의. 그만큼 결과 변수 여기있다. 범주형 또는 이산형.

메일이 스팸인지 스팸이 아닌지, 환자가 특정 질병에 걸릴지 여부를 예측해 보세요.

비지도 학습 작업

클러스터링 방법 데이터를 하위 집합이나 클러스터로 나누기. 목표는 가능한 한 자연스럽게 데이터를 그룹화하는 것입니다. 이는 동일한 클러스터 내의 데이터 포인트가 다른 클러스터의 데이터 포인트보다 서로 더 유사하다는 것을 의미합니다.

차원 축소 데이터 세트의 입력 변수 수를 줄이는 것을 의미합니다. 기본적으로 의미하는 바는 데이터 세트를 매우 적은 수의 변수로 줄이면서 본질을 포착합니다..

다음은 제가 다룰 알고리즘에 대한 개요입니다.

 

상위 10개 기계 학습 알고리즘에 대한 초보자 가이드
작성자 별 이미지

감독 학습 알고리즘

문제에 맞는 알고리즘을 선택할 때 해당 알고리즘이 어떤 작업에 사용되는지 아는 것이 중요합니다.

데이터 과학자로서 여러분은 아마도 다음을 사용하여 Python에서 이러한 알고리즘을 적용하게 될 것입니다. scikit-learn 라이브러리. (거의) 모든 작업을 수행하지만 최소한 각 알고리즘의 내부 작동에 대한 일반 원리를 아는 것이 좋습니다.

마지막으로, 알고리즘이 훈련된 후에는 알고리즘이 얼마나 잘 수행되는지 평가해야 합니다. 이를 위해 각 알고리즘에는 몇 가지 표준 측정항목이 있습니다.

1. 선형 회귀

사용: 리그레션

상품 설명 선형 회귀는 직선을 그립니다. 변수 사이의 회귀선을 호출합니다. 이 선은 대략 데이터 포인트의 중간을 통과하므로 추정 오류가 최소화됩니다. 독립변수의 값을 바탕으로 종속변수의 예측값을 보여줍니다.

평가 지표: 

  • 평균 제곱 오차(MSE): 제곱 오차의 평균을 나타냅니다. 오차는 실제 값과 예측 값의 차이입니다. 값이 낮을수록 알고리즘 성능이 좋아집니다.
  • R-제곱: 독립변수가 예측할 수 있는 종속변수의 분산 비율을 나타냅니다. 이 측정을 위해서는 가능한 한 1에 가까워지도록 노력해야 합니다.

2. 로지스틱 회귀

사용: 분류

상품 설명 그것은 물류 기능 데이터 값을 이진 범주(예: 0 또는 1)로 변환합니다. 이는 일반적으로 0.5로 설정되는 임계값을 사용하여 수행됩니다. 이진 결과는 이 알고리즘을 YES/NO, TRUE/FALSE 또는 0/1과 같은 이진 결과를 예측하는 데 완벽하게 만듭니다.

평가 지표:

  • 정확도: 정확한 예측과 전체 예측 간의 비율입니다. 1에 가까울수록 좋습니다.
  • 정밀도(Precision): 긍정적인 예측에서 모델 정확도의 척도입니다. 올바른 긍정적 예측과 전체 예상 긍정적 결과 사이의 비율로 표시됩니다. 1에 가까울수록 좋습니다.
  • 회상: 또한 긍정적인 예측에서 모델의 정확도를 측정합니다. 이는 올바른 긍정적인 예측과 수업에서 이루어진 총 관찰 간의 비율로 표현됩니다. 이러한 측정항목에 대해 자세히 알아보세요. 여기에서 지금 확인해 보세요..
  • F1 점수: 모델의 재현율과 정밀도의 조화 평균입니다. 1에 가까울수록 좋습니다.

3. 의사결정 트리

사용: 회귀 및 분류

상품 설명 의사 결정 트리 계층적 또는 트리 구조를 사용하여 값이나 클래스를 예측하는 알고리즘입니다. 루트 노드는 전체 데이터 세트를 나타내며, 이는 변수 값에 따라 결정 노드, 분기 및 잎으로 분기됩니다.

평가 지표: 

  • 정확도, 정밀도, 재현율 및 F1 점수 -> 분류용
  • MSE, R-제곱 -> 회귀용

4. 나이브 베이즈

사용: 분류

상품 설명 이것은 다음을 사용하는 분류 알고리즘 계열입니다. 베이즈의 정리, 이는 클래스 내 기능 간의 독립성을 가정한다는 의미입니다.

평가 지표:  

  • 정확성
  • Precision
  • 소환
  • F1 점수

5. K-최근접 이웃(KNN)

사용: 회귀 및 분류

상품 설명 테스트 데이터와 테스트 데이터 사이의 거리를 계산합니다. 가장 가까운 데이터 포인트의 k개 훈련 데이터에서. 테스트 데이터는 '이웃' 수가 더 많은 클래스에 속합니다. 회귀와 관련하여 예측 값은 선택된 k개의 훈련 포인트의 평균입니다.

평가 지표: 

  • 정확도, 정밀도, 재현율 및 F1 점수 -> 분류용
  • MSE, R-제곱 -> 회귀용

6. 서포트 벡터 머신(SVM)

사용: 회귀 및 분류

상품 설명 이 알고리즘은 초평면 다양한 클래스의 데이터를 분리합니다. 모든 클래스의 가장 가까운 지점에서 가장 먼 거리에 위치합니다. 초평면에서 데이터 포인트의 거리가 멀수록 해당 클래스에 더 많이 속합니다. 회귀의 경우 원리는 유사합니다. 초평면은 예측 값과 실제 값 사이의 거리를 최대화합니다.

평가 지표: 

  • 정확도, 정밀도, 재현율 및 F1 점수 -> 분류용
  • MSE, R-제곱 -> 회귀용

7. 랜덤 포레스트

사용: 회귀 및 분류

상품 설명 랜덤 포레스트 알고리즘 결정 트리의 앙상블을 사용하여 결정 포리스트를 만듭니다. 알고리즘의 예측은 많은 의사결정 트리의 예측을 기반으로 합니다. 가장 많은 표를 얻은 클래스에 데이터가 할당됩니다. 회귀의 경우 예측 값은 모든 트리의 예측 값의 평균입니다.

평가 지표: 

  • 정확도, 정밀도, 재현율 및 F1 점수 -> 분류용
  • MSE, R-제곱 -> 회귀용

8. 그래디언트 부스팅

사용: 회귀 및 분류

상품 설명 이러한 알고리즘 약한 모델의 앙상블을 사용하며, 각 후속 모델은 이전 모델의 오류를 인식하고 수정합니다. 이 과정은 오류(손실 함수)가 최소화될 때까지 반복됩니다.

평가 지표: 

  • 정확도, 정밀도, 재현율 및 F1 점수 -> 분류용
  • MSE, R-제곱 -> 회귀용

비지도 학습 알고리즘

9. K-평균 클러스터링

사용: 클러스터링

상품 설명 알고리즘 데이터세트를 k개 클러스터로 나눕니다. 각 클러스터는 다음과 같이 표시됩니다. 중심 또는 기하학적 중심. 데이터를 k개의 클러스터로 나누는 반복 프로세스를 통해 데이터 포인트와 클러스터 중심 사이의 거리를 최소화하는 것이 목표입니다. 반면에 다른 클러스터의 중심에서 이러한 데이터 포인트의 거리를 최대화하려고 시도합니다. 간단히 말해서, 동일한 클러스터에 속한 데이터는 다른 클러스터의 데이터와 최대한 유사해야 하고 달라야 합니다.

평가 지표: 

  • 관성: 가장 가까운 클러스터 중심으로부터 각 데이터 포인트 거리의 제곱 거리의 합입니다. 관성 값이 낮을수록 클러스터가 더 컴팩트해집니다.
  • 실루엣 점수: 클러스터의 응집성(자체 클러스터 내 데이터의 유사성) 및 분리(다른 클러스터와의 데이터 차이)를 측정합니다. 이 점수의 값은 -1에서 +1까지입니다. 값이 높을수록 데이터가 해당 클러스터와 더 많이 일치하고, 다른 클러스터와 더 잘 일치합니다.

10. 주성분 분석(PCA)

사용: 차원 축소

상품 설명 알고리즘 캡처된 데이터 분산을 최대화하려고 시도하면서 새로운 변수(주성분)를 구성하여 사용되는 변수의 수를 줄입니다. 즉, 데이터의 본질을 잃지 않으면서 데이터를 가장 일반적인 구성 요소로 제한합니다.

평가 지표: 

  • 설명된 분산: 각 주성분이 포함하는 분산의 백분율입니다.
  • 총 설명 분산: 모든 주성분에 포함되는 분산의 백분율입니다.

머신러닝은 데이터 과학의 필수적인 부분입니다. 이 10가지 알고리즘을 사용하면 기계 학습에서 가장 일반적인 작업을 다룰 수 있습니다. 물론 이 개요는 각 알고리즘의 작동 방식에 대한 일반적인 아이디어만 제공합니다. 이제 이것은 시작에 불과합니다.

이제 Python에서 이러한 알고리즘을 구현하고 실제 문제를 해결하는 방법을 배워야 합니다. 그런 점에서는 scikit-learn을 사용하는 것이 좋습니다. 비교적 사용하기 쉬운 ML 라이브러리일 뿐만 아니라 광범위한 재료 ML 알고리즘에 대해
 
 

네이트 로시디 데이터 과학자이자 제품 전략 분야의 전문가입니다. 그는 또한 분석을 가르치는 부교수이기도 하며, 데이터 과학자가 상위 기업의 실제 인터뷰 질문을 사용하여 인터뷰를 준비하는 데 도움이 되는 플랫폼인 StrataScratch의 창립자이기도 합니다. Nate는 취업 시장의 최신 동향에 대해 글을 쓰고, 인터뷰 조언을 제공하고, 데이터 과학 프로젝트를 공유하고, SQL의 모든 것을 다룹니다.

spot_img

최신 인텔리전스

spot_img