제퍼넷 로고

모든 데이터 과학 초보자가 알아야 할 15가지 기본 통계 개념

시간

개요

의 중심 데이터 과학 통계는 수세기 동안 존재해 왔지만 오늘날의 디지털 시대에도 근본적으로 필수적인 것입니다. 왜? 기본 통계 개념이 기초가 되기 때문입니다. 데이터 분석, 매일 생성되는 방대한 양의 데이터를 이해할 수 있게 해줍니다. 이는 데이터와 대화하는 것과 같습니다. 통계는 올바른 질문을 하고 데이터가 전달하려는 이야기를 이해하는 데 도움이 됩니다.

미래 추세를 예측하고 데이터를 기반으로 한 의사 결정부터 가설 테스트 및 성과 측정에 이르기까지 통계는 데이터 기반 의사 결정을 뒷받침하는 통찰력을 제공하는 도구입니다. 이는 원시 데이터와 실행 가능한 통찰력 사이의 가교 역할을 하며 데이터 과학에 없어서는 안 될 부분입니다.

이 글에서는 모든 데이터 과학 초보자가 알아야 할 상위 15가지 기본 통계 개념을 정리했습니다!

모든 데이터 과학 초보자가 알아야 할 15가지 기본 통계 개념

차례

1. 통계적 샘플링 및 데이터 수집

몇 가지 기본적인 통계 개념을 배우겠지만, 데이터의 바다에 깊이 빠져들기 전에 데이터가 어디서 왔는지, 어떻게 수집하는지 이해하는 것이 필수적입니다. 여기서는 모집단, 표본 및 다양한 표본 추출 기술이 활용됩니다. 

도시에 있는 사람들의 평균 키를 알고 싶다고 가정해 보겠습니다. 모든 사람을 측정하는 것이 실용적이므로 더 큰 인구를 대표하는 더 작은 그룹(샘플)을 선택합니다. 비결은 이 샘플을 선택하는 방법에 있습니다. 무작위, 계층화 또는 클러스터 샘플링과 같은 기술을 사용하면 샘플이 잘 표현되어 편향을 최소화하고 결과의 신뢰성을 높일 수 있습니다. 

모집단과 표본을 이해함으로써 우리는 표본에서 전체 모집단으로 통찰력을 자신있게 확장하여 모든 사람을 조사할 필요 없이 정보에 입각한 결정을 내릴 수 있습니다.

2. 자료의 종류와 측정척도

데이터는 다양한 형태로 제공되며, 다루고 있는 데이터 유형을 아는 것은 올바른 통계 도구와 기술을 선택하는 데 중요합니다.

정량적 및 정성적 데이터

  • 정량적 데이터 : 이러한 유형의 데이터는 모두 숫자에 관한 것입니다. 측정 가능하며 수학적 계산에 사용할 수 있습니다. 정량적 데이터는 웹사이트를 방문하는 사용자 수나 도시의 기온과 같이 '얼마나' 또는 '얼마나 많은지'를 알려줍니다. 간단하고 객관적이며 수치를 통해 명확한 그림을 제공합니다.
  • 질적 데이터: 반대로, 질적 데이터는 특성과 설명을 다룹니다. '어떤 유형' 또는 '어떤 카테고리'에 관한 것입니다. 자동차 색상이나 책 장르 등 품질이나 속성을 설명하는 데이터라고 생각하세요. 이 데이터는 측정이 아닌 관찰을 기반으로 하는 주관적입니다.

XNUMX 가지 측정 척도

  1. 공칭 규모: 이는 특정 순서 없이 데이터를 분류하는 데 사용되는 가장 간단한 측정 형태입니다. 예로는 요리 유형, 혈액형, 국적 등이 있습니다. 정량적인 가치 없이 라벨을 붙이는 것입니다.
  2. 순서 척도: 여기에서 데이터를 정렬하거나 순위를 매길 수 있지만 값 사이의 간격은 정의되지 않습니다. 만족, 중립, 불만족 등의 옵션이 포함된 만족도 설문조사를 생각해 보세요. 순서는 알려주지만 순위 간의 거리는 알려주지 않습니다.
  3. 간격 척도: 간격은 주문 데이터를 확장하고 항목 간의 차이를 수량화합니다. 그러나 실제 영점은 없습니다. 좋은 예는 섭씨 온도입니다. 10°C와 20°C의 차이는 20°C와 30°C의 차이와 같지만, 0°C가 온도가 없다는 의미는 아닙니다.
  4. 비율 척도: 가장 유익한 척도는 간격 척도의 모든 속성에 의미 있는 영점을 더해 크기를 정확하게 비교할 수 있게 해줍니다. 예로는 체중, 키, 소득 등이 있습니다. 여기서 우리는 어떤 것이 다른 것보다 두 배 크다고 말할 수 있습니다.

3. 기술 통계

Imagine 설명 통계 데이터와의 첫 데이트로. 그것은 기본, 즉 당신 앞에 있는 것을 설명하는 광범위한 스트로크를 알아가는 것입니다. 기술 통계에는 중심 경향과 변동성 측정이라는 두 가지 주요 유형이 있습니다.

중심 경향 측정: 이는 데이터의 무게 중심과 같습니다. 이는 데이터 세트의 일반적이거나 대표적인 단일 값을 제공합니다.

평균: 평균은 모든 값을 더한 후 값의 개수로 나누어 계산됩니다. 이는 모든 리뷰를 기반으로 한 레스토랑의 전반적인 평점과 같습니다. 평균에 대한 수학 공식은 다음과 같습니다.

기술통계 | 기본 통계 개념

중앙값: 데이터를 가장 작은 것부터 큰 것 순으로 정렬했을 때 중간 값입니다. 관측치 수가 짝수이면 가운데 두 숫자의 평균이 됩니다. 교량의 중간점을 찾는 데 사용됩니다.

n이 짝수인 경우 중앙값은 두 중앙 숫자의 평균입니다.

기술통계 | 기본 통계 개념

모드 : 그것은이다 데이터 세트에서 가장 자주 발생하는 값입니다. 레스토랑에서 가장 인기 있는 요리라고 생각하세요.

변동성 측정: 중심 경향을 측정하면 중심으로 이동하는 반면, 변동성을 측정하면 확산 또는 분산에 대해 알 수 있습니다.

범위 : 최고값과 최저값의 차이입니다. 이는 확산에 대한 기본 아이디어를 제공합니다.

기술 통계

변화: 집합의 각 숫자가 평균으로부터 얼마나 떨어져 있는지, 즉 집합의 다른 모든 숫자로부터 얼마나 떨어져 있는지를 측정합니다. 샘플의 경우 다음과 같이 계산됩니다.

기술 통계

표준 편차: 분산의 제곱근은 평균으로부터의 평균 거리를 측정합니다. 이는 제빵사의 케이크 크기의 일관성을 평가하는 것과 같습니다. 이는 다음과 같이 표현됩니다.

기술 통계

다음 기본 통계 개념으로 넘어가기 전에, 여기에 초보자를 위한 통계 분석 가이드 당신을 위해!

4. 데이터 시각화

데이터 시각화 데이터로 스토리를 전달하는 기술이자 과학입니다. 분석의 복잡한 결과를 유형적이고 이해할 수 있는 것으로 바꿔줍니다. 아직 공식적인 결론을 내리지 않고 데이터에서 패턴, 상관관계, 통찰력을 찾아내는 것이 목표인 탐색적 데이터 분석에 매우 중요합니다.

  • 차트 및 그래프: 기본부터 시작하여 막대 차트, 선 그래프 및 원형 차트는 데이터에 대한 기본적인 통찰력을 제공합니다. 이는 모든 데이터 스토리텔러에게 필수적인 데이터 시각화의 ABC입니다.

아래에는 막대 차트(왼쪽)와 선 차트(오른쪽)의 예가 있습니다.

데이터 시각화 | 기본 통계 개념
  • 고급 시각화: 더 자세히 살펴보면 히트 맵, 산점도, 히스토그램을 통해 더욱 세밀한 분석이 가능해집니다. 이러한 도구는 추세, 분포 및 이상값을 식별하는 데 도움이 됩니다.

아래는 산점도와 히스토그램의 예입니다.

데이터 시각화

시각화는 원시 데이터와 인간의 인지를 연결하여 복잡한 데이터세트를 신속하게 해석하고 이해할 수 있도록 해줍니다.

5. 확률의 기초

있을 법한 일 통계언어의 문법이다. 사건이 일어날 확률이나 가능성에 관한 것입니다. 통계 결과를 해석하고 예측을 하기 위해서는 확률의 개념을 이해하는 것이 필수적입니다.

  • 독립 및 종속 이벤트:
    • 독립 이벤트: 한 사건의 결과는 다른 사건의 결과에 영향을 미치지 않습니다. 동전을 던지는 것처럼, 한 번 던져서 앞면이 나오더라도 다음 번 던지기의 확률은 바뀌지 않습니다.
    • 종속 이벤트: 한 사건의 결과는 다른 사건의 결과에 영향을 미칩니다. 예를 들어, 덱에서 카드를 뽑고 교체하지 않으면 다른 특정 카드를 뽑을 확률이 달라집니다.

확률은 데이터에 대한 추론을 위한 기초를 제공하며 통계적 유의성과 가설 검정을 이해하는 데 중요합니다.

6. 일반적인 확률 분포

확률 분포 통계 생태계의 다른 종과 같으며 각각은 틈새 시장에 적응합니다.

  • 정규 분포: 모양 때문에 종형 곡선이라고도 불리는 이 분포는 평균과 표준 편차가 특징입니다. 현실 세계에서는 많은 변수가 자연스럽게 이런 방식으로 분포되기 때문에 이는 많은 통계 테스트에서 흔히 사용되는 가정입니다.
일반적인 확률 분포

경험적 규칙 또는 68-95-99.7 규칙으로 알려진 일련의 규칙은 데이터가 평균을 중심으로 분산되는 방식을 설명하는 정규 분포의 특성을 요약합니다. 

68-95-99.7 규칙(경험적 규칙)

이 규칙은 완전 정규 분포에 적용되며 다음 내용을 간략하게 설명합니다.

  • 68% 데이터의 평균(μ)의 1 표준편차(σ) 내에 속합니다. 
  • 95% 의 데이터가 평균의 두 표준편차 내에 속합니다. 
  • 대략 99.7% 의 데이터가 평균의 3 표준편차 내에 속합니다.

이항 분포: 이 분포는 두 가지 결과(예: 성공 또는 실패)가 여러 번 반복되는 상황에 적용됩니다. 동전 뒤집기나 참/거짓 테스트와 같은 이벤트를 모델링하는 데 도움이 됩니다.

일반적인 확률 분포

포아송 분포 특정 간격이나 공간에서 어떤 일이 발생한 횟수를 계산합니다. 매일 받는 이메일과 같이 이벤트가 독립적이고 지속적으로 발생하는 상황에 이상적입니다.

일반적인 확률 분포

각 분포에는 고유한 공식과 특성 세트가 있으며, 올바른 분포를 선택하는 것은 데이터의 성격과 찾으려는 내용에 따라 달라집니다. 이러한 분포를 이해하면 통계학자와 데이터 과학자가 실제 현상을 모델링하고 미래 사건을 정확하게 예측할 수 있습니다.

7 . 가설 검증

생각 가설 검증 통계 분야의 탐정으로서 일합니다. 이는 데이터에 대한 특정 이론이 사실일 수 있는지 테스트하는 방법입니다. 이 프로세스는 두 가지 상반된 가설로 시작됩니다.

  • 귀무가설(H0): 이는 기본 가정으로, 효과나 차이가 있음을 나타냅니다. 여기서는 "새롭지 않다"고 말하고 있습니다.
  • Al "대체 가설(H1 또는 Ha): 이는 현상 유지에 도전하여 효과나 차이를 제안합니다. “뭔가 흥미로운 일이 벌어지고 있다”고 주장합니다.

예: 새로운 다이어트 프로그램이 다이어트를 따르지 않는 것과 비교하여 체중 감소로 이어지는지 테스트합니다.

  • 귀무가설(H0): 새로운 다이어트 프로그램은 체중 감소로 이어지지 않습니다(새로운 다이어트 프로그램을 따르는 사람과 그렇지 않은 사람 사이의 체중 감소에는 차이가 없습니다).
  • 대립 가설(H1): 새로운 다이어트 프로그램은 체중 감량으로 이어집니다(이 프로그램을 따르는 사람과 따르지 않는 사람의 체중 감량 차이).

가설 테스트에는 증거(우리 데이터)를 기반으로 이 두 가지 중에서 선택하는 것이 포함됩니다.

유형 I 및 II 오류 및 유의 수준:

  • 제1종 오류: 이는 귀무가설을 잘못 기각할 때 발생합니다. 무고한 사람에게 유죄 판결을 내립니다.
  • 제2종 오류: 이는 잘못된 귀무가설을 기각하지 못할 때 발생합니다. 죄를 지은 사람을 풀어주는 것입니다.
  • 유의수준(α): 이는 귀무 가설을 기각하기에 충분한 증거의 양을 결정하기 위한 임계값입니다. 종종 5%(0.05)로 설정되는데, 이는 제5종 오류의 위험이 XNUMX%임을 나타냅니다.

8. 신뢰구간

신뢰 구간 유효한 모집단 매개변수(예: 평균 또는 비율)가 특정 신뢰 수준(일반적으로 95%)에 속할 것으로 예상되는 값 범위를 제공합니다. 이는 마치 오차 범위를 두고 스포츠 팀의 최종 점수를 예측하는 것과 같습니다. "우리는 실제 점수가 이 범위 내에 있을 것이라고 95% 확신합니다."라고 말하는 것입니다.

신뢰 구간을 구성하고 해석하면 추정치의 정확성을 이해하는 데 도움이 됩니다. 간격이 넓을수록 추정치는 덜 정확하며 그 반대도 마찬가지입니다.

신뢰 구간

위 그림은 표본 분포와 표본 평균 주위의 95% 신뢰 구간을 사용하여 통계의 신뢰 구간(CI) 개념을 보여줍니다.

다음은 그림의 중요한 구성 요소에 대한 분석입니다.

  • 샘플 분포(회색 히스토그램): 이는 평균이 100이고 표준 편차가 50인 정규 분포에서 무작위로 생성된 10개의 데이터 포인트의 분포를 나타냅니다. 히스토그램은 데이터 포인트가 평균 주위에 어떻게 분산되어 있는지 시각적으로 보여줍니다.
  • 표본 평균(빨간색 점선): 이 선은 샘플 데이터의 평균(평균) 값을 나타냅니다. 이는 신뢰 구간을 구성하는 점 추정치 역할을 합니다. 이 경우 모든 샘플 값의 평균을 나타냅니다.
  • 95% 신뢰구간(파란색 점선): 이 두 선은 표본 평균에 대한 95% 신뢰 구간의 하한과 상한을 표시합니다. 간격은 평균의 표준 오차(SEM)와 원하는 신뢰도 수준(1.96% 신뢰도의 경우 95)에 해당하는 Z-점수를 사용하여 계산됩니다. 신뢰 구간은 모집단 평균이 이 범위 내에 있다고 95% 확신한다는 것을 나타냅니다.

9. 상관관계와 인과관계

상관관계 및 인과관계 종종 혼동되기도 하지만 다릅니다.

  • 상관 관계 : 두 변수 사이의 관계 또는 연관성을 나타냅니다. 하나가 변하면 다른 하나도 변하는 경향이 있습니다. 상관관계는 -1에서 1 사이의 상관계수로 측정됩니다. 값이 1 또는 -1에 가까울수록 관계가 강한 것을 나타내고, 0은 관계가 없음을 나타냅니다.
  • 원인: 이는 한 변수의 변경이 다른 변수의 변경을 직접적으로 유발함을 의미합니다. 이는 상관 관계보다 더 강력한 주장이며 엄격한 테스트가 필요합니다.

두 변수가 상관관계가 있다고 해서 하나가 다른 변수를 유발한다는 의미는 아닙니다. 이는 '상관관계'와 '인과관계'를 혼동하지 않는 전형적인 사례입니다.

10. 단순 선형 회귀

단순, 간단, 편리 선형 회귀 관측된 데이터에 선형 방정식을 적용하여 두 변수 간의 관계를 모델링하는 방법입니다. 한 변수는 설명 변수(독립)로 간주되고 다른 변수는 종속 변수로 간주됩니다.

단순 선형 회귀

단순 선형 회귀는 독립 변수의 변화가 종속 변수에 어떤 영향을 미치는지 이해하는 데 도움이 됩니다. 이는 예측을 위한 강력한 도구이며 다른 많은 복잡한 통계 모델의 기초입니다. 두 변수 사이의 관계를 분석함으로써 이들이 어떻게 상호 작용할 것인지에 대한 정보를 바탕으로 예측할 수 있습니다.

단순선형회귀는 독립변수(설명변수)와 종속변수 사이의 선형 관계를 가정합니다. 이 두 변수 사이의 관계가 선형이 아닌 경우 단순 선형 회귀의 가정이 위반되어 잠재적으로 부정확한 예측이나 해석이 발생할 수 있습니다. 따라서 단순 선형 회귀를 적용하기 전에 데이터의 선형 관계를 확인하는 것이 필수적입니다.

11. 다중 선형 회귀

다중 선형 회귀를 단순 선형 회귀의 확장으로 생각해 보세요. 하지만 빛나는 갑옷을 입은 기사(예측자) 한 명으로 결과를 예측하는 대신 전체 팀이 있습니다. 이는 일대일 농구 경기에서 각 선수(예측자)가 고유한 기술을 발휘하는 전체 팀 노력으로 업그레이드하는 것과 같습니다. 아이디어는 여러 변수가 함께 단일 결과에 어떻게 영향을 미치는지 확인하는 것입니다.

그러나 팀 규모가 커지면 다중 공선성이라는 관계 관리 문제가 발생합니다. 이는 예측 변수가 서로 너무 가깝고 유사한 정보를 공유할 때 발생합니다. 두 명의 농구 선수가 끊임없이 같은 슛을 시도한다고 상상해 보십시오. 그들은 서로의 길을 방해할 수 있습니다. 회귀로 인해 각 예측 변수의 고유한 기여도를 확인하기가 어려워지고 잠재적으로 어떤 변수가 중요한지에 대한 이해가 왜곡될 수 있습니다.

12. 로지스틱 회귀

선형 회귀는 온도나 가격과 같은 지속적인 결과를 예측하지만, 로지스틱 회귀 결과가 확실할 때(예/아니요, 승리/패배 등) 사용됩니다. 다양한 요인을 기반으로 팀이 승리할지 패배할지 예측한다고 상상해 보세요. 로지스틱 회귀가 가장 좋은 전략입니다.

출력이 0과 1 사이에 떨어지도록 선형 방정식을 변환하여 특정 범주에 속할 확률을 나타냅니다. 이는 연속 점수를 명확한 "이것 아니면 저것" 보기로 변환하여 범주별 결과를 예측할 수 있게 해주는 마법의 렌즈를 갖는 것과 같습니다.

로지스틱 회귀

그래픽 표현은 합성 이진 분류 데이터세트에 적용된 로지스틱 회귀의 예를 보여줍니다. 파란색 점은 데이터 요소를 나타내며, x축 위치는 특성 값을 나타내고 y축은 범주(0 또는 1)를 나타냅니다. 빨간색 곡선은 다양한 특성 값에 대해 클래스 1(예: "승리")에 속할 확률에 대한 로지스틱 회귀 모델의 예측을 나타냅니다. 보시다시피, 곡선은 클래스 0의 확률에서 클래스 1로 원활하게 전환되어 기본 연속 특성을 기반으로 범주형 결과를 예측하는 모델의 능력을 보여줍니다.​

로지스틱 회귀 공식은 다음과 같습니다.

로지스틱 회귀 공식 | 기본 통계 개념

이 공식은 로지스틱 함수를 사용하여 선형 방정식의 출력을 0과 1 사이의 확률로 변환합니다. 이 변환을 통해 출력을 독립 변수 xx의 값을 기반으로 특정 범주에 속할 확률로 해석할 수 있습니다.

13. 분산 분석 및 카이제곱 검정

ANOVA(분산분석)카이제곱 테스트 통계계의 탐정과 같아서 우리가 다양한 미스터리를 해결하도록 도와줍니다. 나t 여러 그룹의 평균을 비교하여 적어도 하나의 그룹이 통계적으로 다른지 확인할 수 있습니다. 어떤 배치의 맛이 크게 다른지 확인하기 위해 여러 배치의 쿠키 샘플을 맛보는 것으로 생각하십시오.

반면, 카이제곱 검정은 범주형 데이터에 사용됩니다. 이는 두 범주형 변수 사이에 중요한 연관성이 있는지 이해하는 데 도움이 됩니다. 예를 들어, 개인이 좋아하는 음악 장르와 연령층 사이에 관계가 있습니까? 카이제곱 테스트는 이러한 질문에 답하는 데 도움이 됩니다.

14. 중심 극한 정리와 데이터 과학에서의 중요성

XNUMXD덴탈의 중심극한정리(CLT) 거의 마술처럼 느껴지는 기본적인 통계 원리입니다. 이는 모집단에서 충분한 표본을 추출하여 평균을 계산하면 해당 평균은 모집단의 원래 분포에 관계없이 정규 분포(종형 곡선)를 형성한다는 것을 알려줍니다. 이는 인구의 정확한 분포를 알지 못하는 경우에도 인구에 대해 추론할 수 있기 때문에 매우 강력합니다.

데이터 과학에서 CLT는 많은 기술을 뒷받침하므로 데이터가 처음에 해당 기준을 충족하지 않는 경우에도 정규 분포 데이터용으로 설계된 도구를 사용할 수 있습니다. 이는 통계 방법을 위한 범용 어댑터를 찾는 것과 같으며 더 많은 상황에 적용할 수 있는 강력한 도구를 많이 만듭니다.

15. 편향-분산 트레이드오프

In 예측 모델링기계 학습Walk Through California 프로그램, 편향-분산 트레이드오프 모델을 잘못 만들 수 있는 두 가지 주요 오류 유형 사이의 긴장을 강조하는 중요한 개념입니다. 편향은 기본 추세를 잘 포착하지 못하는 지나치게 단순한 모델에서 발생하는 오류를 나타냅니다. 곡선 도로에 직선을 맞추려고 한다고 상상해 보세요. 당신은 목표를 놓치게 될 것입니다. 반대로, 너무 복잡한 모델의 분산은 마치 실제 패턴인 것처럼 데이터의 노이즈를 포착합니다. 예를 들어, 모든 비틀림을 추적하고 울퉁불퉁한 트레일을 켜서 그것이 앞으로 나아갈 길이라고 생각하는 것과 같습니다.

이 두 가지의 균형을 맞춰 전체 오류를 최소화하고 모델이 딱 맞는 최적의 지점을 찾는 것이 기술입니다. 정확한 패턴을 캡처할 수 있을 만큼 복잡하지만 임의의 노이즈를 무시할 수 있을 만큼 단순합니다. 그것은 기타를 조율하는 것과 같습니다. 너무 빡빡하거나 느슨하면 제대로 들리지 않습니다. 편향-분산 트레이드오프 이 둘 사이의 완벽한 균형을 찾는 것입니다. 편향-분산 절충은 결과를 정확하게 예측하는 데 최선을 다하도록 통계 모델을 조정하는 것의 핵심입니다.

결론

통계 샘플링부터 편향-분산 트레이드오프에 이르기까지 이러한 원칙은 단순한 학문적 개념이 아니라 통찰력 있는 데이터 분석을 위한 필수 도구입니다. 그들은 야심 찬 데이터 과학자에게 방대한 데이터를 실행 가능한 통찰력으로 전환하는 기술을 제공하고 디지털 시대의 데이터 중심 의사 결정 및 혁신의 중추로서 통계를 강조합니다.

기본적인 통계 개념을 놓치셨나요? 아래 댓글 섹션을 통해 알려주세요.

우리의 탐험 엔드투엔드 통계 가이드 데이터 과학을 위해 주제에 대해 알아보세요!

spot_img

최신 인텔리전스

spot_img