$골드 블로그$ 데이터 과학에 얼마나 많은 수학이 필요합니까?

데이터 과학자가 작업을 수행하는 데 사용할 수 있는 훌륭한 계산 도구가 너무 많습니다. 그러나 데이터 과학 및 기계 학습에서는 수학적 기술이 여전히 필수적입니다. 왜냐하면 이러한 도구는 이론적 기초 없이는 핵심 분석 질문을 할 수 없는 블랙박스일 뿐이기 때문입니다.

By 벤자민 오비 타요 Ph.D., 물리학자, 데이터 과학 교육자, 작가.

Benjamin O. Tayo의 이미지.

I. 소개

데이터 과학을 꿈꾸는 사람이라면 의심할 여지 없이 다음 질문을 염두에 두고 있을 것입니다.

수학 배경이 거의 또는 전혀 없는 데이터 과학자가 될 수 있습니까?

데이터 과학에서 어떤 필수 수학 능력이 중요합니까?

예측 모델을 구축하거나 데이터 시각화를 생성하는 데 사용할 수 있는 좋은 패키지가 너무 많습니다. 기술 및 예측 분석을 위한 가장 일반적인 패키지는 다음과 같습니다.

ggplot2
매트플롯립
씨본
사이 킷 러닝
탈자 부호
TensorFlow
파이 토치
케 라스

이러한 패키지 덕분에 누구나 모델을 구축하거나 데이터 시각화를 생성할 수 있습니다. 그러나 수학에 대한 매우 탄탄한 배경 지식은 최적의 성능으로 신뢰할 수 있는 모델을 생성하기 위해 모델을 미세 조정하는 데 필수적입니다. 모델을 구축하는 것과 모델을 해석하고 데이터 기반 의사 결정에 사용할 수 있는 의미 있는 결론을 도출하는 것은 또 다른 문제입니다. 이러한 패키지를 사용하기 전에 각 패키지의 수학적 기초를 이해하는 것이 중요합니다. 따라서 이러한 패키지를 단순히 블랙박스 도구로 사용하지 않는 것입니다.

II. 사례 연구: 다중 회귀 모델 구축

다중 회귀 모델을 구축한다고 가정해 보겠습니다. 그렇게 하기 전에 우리는 스스로에게 다음과 같은 질문을 던져야 합니다.

내 데이터세트의 크기는 얼마입니까?

내 기능 변수와 대상 변수는 무엇입니까?

어떤 예측 변수 기능이 대상 변수와 가장 상관관계가 있습니까?

어떤 기능이 중요합니까?

기능을 확장해야 합니까?

내 데이터 세트를 훈련 및 테스트 세트로 어떻게 분할해야 합니까?

PCA(주성분 분석)란 무엇입니까?

중복 기능을 제거하기 위해 PCA를 사용해야 합니까?

내 모델을 어떻게 평가합니까? R2 점수, MSE 또는 MAE를 사용해야 합니까?

모델의 예측력을 향상시키려면 어떻게 해야 합니까?

정규화된 회귀 모델을 사용해야 합니까?

회귀 계수는 무엇입니까?

인터셉트가 뭔가요?

KNeighbors 회귀 또는 지원 벡터 회귀와 같은 비모수 회귀 모델을 사용해야 합니까?

내 모델의 하이퍼파라미터는 무엇이며 최적의 성능을 가진 모델을 얻기 위해 어떻게 미세 조정될 수 있습니까?

건전한 수학 배경이 없으면 위에서 제기한 질문을 해결할 수 없습니다. 결론은 데이터 과학 및 기계 학습에서 수학 기술은 프로그래밍 기술만큼 중요하다는 것입니다. 따라서 데이터 과학 지망자로서 데이터 과학 및 기계 학습의 이론 및 수학적 기초를 연구하는 데 시간을 투자하는 것이 중요합니다. 실제 문제에 적용할 수 있는 안정적이고 효율적인 모델을 구축하는 능력은 수학 능력이 얼마나 뛰어난지에 달려 있습니다. 기계 학습 회귀 모델을 구축하는 데 수학 기술이 어떻게 적용되는지 보려면 다음 문서를 참조하세요. 기계 학습 프로세스 자습서.

이제 데이터 과학 및 기계 학습에 필요한 몇 가지 필수 수학 기술에 대해 논의해 보겠습니다.

III. 데이터 과학 및 기계 학습을 위한 필수 수학 기술

1. 통계 및 확률

통계 및 확률은 기능의 시각화, 데이터 전처리, 기능 변환, 데이터 대치, 차원 축소, 기능 엔지니어링, 모델 평가 등에 사용됩니다.

다음은 숙지해야 할 주제입니다. 평균, 중앙값, 최빈값, 표준 편차/분산, 상관 계수 및 공분산 행렬, 확률 분포(이항, 포아송, 정규), p-값, Baye 정리(정밀도, 재현율, 양의 예측값, 음의 예측값, 혼동 행렬, ROC 곡선), 중심 극한 정리, R_2 점수, 평균 제곱 오차(MSE), A/B 테스트, 몬테카를로 시뮬레이션

2. 다변수 미적분학

대부분의 기계 학습 모델은 여러 기능 또는 예측 변수가 있는 데이터 세트로 구축됩니다. 따라서 다변수 미적분학에 대한 지식은 기계 학습 모델을 구축하는 데 매우 중요합니다.

다음은 숙지해야 할 주제입니다. 여러 변수의 기능 파생 상품 및 기울기; 단계 함수, Sigmoid 함수, Logit 함수, ReLU(Rectified Linear Unit) 함수; 비용 함수; 기능의 플로팅; 함수의 최소값과 최대값

3. 선형대수학

선형 대수학은 기계 학습에서 가장 중요한 수학 기술입니다. 데이터 세트는 행렬로 표현됩니다. 선형 대수학은 데이터 전처리, 데이터 변환, 차원 축소 및 모델 평가에 사용됩니다.

다음은 숙지해야 할 주제입니다. 벡터; 벡터의 노름; 행렬; 행렬의 전치; 역행렬; 행렬의 행렬식; 매트릭스의 흔적; 내적; 고유값; 고유 벡터

4. 최적화 방법

대부분의 기계 학습 알고리즘은 목적 함수를 최소화하여 예측 모델링을 수행하여 예측 레이블을 얻기 위해 테스트 데이터에 적용해야 하는 가중치를 학습합니다.

다음은 숙지해야 할 주제입니다. 비용 함수/목적 함수; 가능성 함수; 오류 기능; 기울기 하강 알고리즘 및 그 변형(예: 확률적 기울기 하강 알고리즘)

IV. 요약 및 결론

요약하면, 우리는 데이터 과학 및 기계 학습에 필요한 필수 수학 및 이론 기술에 대해 논의했습니다. 데이터 과학 및 기계 학습에 필요한 수학 기술을 가르치는 무료 온라인 과정이 여러 개 있습니다. 데이터 과학을 지망하는 사람으로서 데이터 과학의 이론적 토대는 효율적이고 신뢰할 수 있는 모델을 구축하는 데 매우 중요하다는 점을 명심하는 것이 중요합니다. 따라서 각 기계 학습 알고리즘의 이면에 있는 수학적 이론을 연구하는 데 충분한 시간을 투자해야 합니다.