제퍼넷 로고

다단계 모델링에 대한 간략한 소개

시간

이 기사는 데이터 과학 Blogathon.

차례

  1. 개요
  2. 다단계 모델
  3. 다단계 모델의 장점
  4. 다단계 모델은 언제 사용합니까?
  5. 다단계 모델의 유형
  6. 랜덤 인터셉트 모델
  7. 랜덤 계수 모델
  8. 가설 검정: 우도 비율 검정
  9. 엔드노트

개요

한 대학의 교수 급여 데이터 세트가 있고 급여와 수년간의 경험 간의 관계에 관심이 있다고 가정합니다. 문제를 어떻게 해결하시겠습니까? 연도를 종속 변수로, 급여를 응답 변수로 사용하는 선형 회귀. 간단하지 않나요? 하지만 학과별로 교수 개개인의 급여가 다르다고 말씀드리면 어떨까요? Computer Sc의 교사는 사회학 교사보다 더 많은 급여를 받을 수 있습니다. 따라서 교원 급여에 학과의 영향이 있음을 알 수 있습니다. 통계학자들은 이것을 그룹 효과 또는 그룹의 무작위 효과라고 부릅니다. 여기에서 교수진은 그룹 부서 내에 중첩되거나 클러스터링됩니다. 그리고 한 단계 더 나아가 대학 내 학과를 그룹화하고 다른 대학 교수들의 급여를 비교하면 결과가 다를 수 있습니다. 따라서 그룹 아래의 데이터는 상관 관계가 있지만 일반 선형 회귀에서는 데이터가 독립적이라고 가정합니다. 따라서 이러한 관찰 간의 상관 관계를 반영하는 모델이 필요합니다. 정규 회귀 모델을 계속 사용하면 데이터에서 좋은 추론을 얻지 못할 수 있습니다.

다단계 모델링

다단계 모델링은 관측치 간에 상관관계가 있을 때 종속 데이터와 독립 데이터 간의 관계를 모델링하는 데 사용되는 통계 모델입니다. 이러한 모델은 계층적 모델, 혼합 효과 모델, 내포 데이터 모델 또는 랜덤 계수 모델이라고도 합니다. 여기에서 개별 관찰은 다른 그룹 안에 중첩됩니다. 각 그룹 내의 관찰은 상관 관계가 있습니다.

다단계 모델링의 장점

더미 변수를 도입하여 위에서 제공한 예와 같이 그룹화된 데이터에서 일반 회귀 모델을 매우 잘 사용할 수 있습니다. 그러나 다단계 접근법에는 몇 가지 장점이 있습니다.

더 나은 추론: 다단계 회귀는 그룹화된 데이터에서 더 나은 추론을 제공합니다. 정규 회귀 모델은 결과적으로 계수를 과소평가하고 계수 유의성을 과대평가하는 데이터 그룹화를 고려하지 않습니다.

더 적은 매개변수: 일반 회귀 모델에서는 그룹을 설명하기 위해 더미 변수가 필요하지만 다단계 회귀에서는 동일한 매개변수가 더 적게 필요합니다.

그룹 효과: 종종 우리는 학생들의 시험 결과를 결정하는 학교의 역할과 같은 그룹 효과에 특히 관심이 있습니다. 이것은 정규 회귀로 얻을 수 없으므로 다단계 모델을 사용합니다.

다단계 모델링은 언제 사용합니까?

한 시점에서 클러스터(학교, 지역, 병원)의 무작위 샘플에서 개별 데이터를 수집하면 이러한 클러스터 내의 관찰이 유사할 가능성이 더 큽니다. 예를 들어, 다른 학교의 학생들은 공통 시험에서 다르게 수행할 수 있지만 같은 학교의 학생들의 수행은 일부 유사성을 가질 수 있습니다. 여기에서 학교는 클러스터이고 학생의 시험 점수는 학교 내에 중첩된 관찰입니다. 시험 점수와 일부 예측 변수 x 사이의 관계를 모델링하기 위해 정규 회귀를 맞추면 교사의 자격을 가정해 봅시다. 학교 수준 변수의 영향을 할인합니다. 단순 회귀 모델을 사용하면 학생 수준에서 얼마나 많은 변동이 발생하고 학교 수준에서 얼마나 많은 변동이 발생하는지 추정할 수 있는 방법이 없습니다.

어떤 학교는 다른 학교보다 더 나은 학습 환경을 가지고 있거나 한 학교의 교수진이 다른 학교보다 더 좋을 수 있습니다. 절편 또는 계수에 대한 확률 변수를 도입한 다음 분산을 추정하면 그룹 효과에 대한 더 나은 아이디어를 얻을 수 있습니다. 여기에서 다단계 모델링이 필요합니다.

다단계 모델링
이미지는 작성자에게 있습니다

다단계 모델은 동일한 개인에 대한 반복 측정이 일정 기간 동안 수행되는 종단적 연구에서도 유용합니다. 따라서 측정값이 각 개인 내에 클러스터되어 있다고 말할 수 있습니다. 예를 들어, 한 그룹의 소년들이 무작위로 선택되었고 그들의 키는 향후 XNUMX년 동안 매년 기록되었습니다. 다단계 모델을 사용하여 사람과 키 간의 관계를 모델링할 수 있습니다.

레벨이란:

위의 예에서 학생, 측정, 학교, 소년 그룹은 다단계 구조의 수준입니다. 일반적으로 더 큰 모집단에서 표본 추출한 변수를 평준화할 수 있습니다. 학교는 더 많은 학교 모집단에서 표본을 추출할 수 있으며 학교의 학생은 더 많은 학생 모집단에서 무작위 표본을 추출할 수 있습니다. 가장 기본적인 관찰은 수준 2로 간주되고 후속 그룹은 수준 3, XNUMX 등으로 간주됩니다. 예를 들어,

수준 3: 지역, 지구, 지방

레벨 2: 학교, 병원, 개인

레벨 1: 학생, 교수진, 측정

다단계 모델의 유형

단순 회귀 모델에는 절편 항, 예측 변수에 기울기 및 잔차 항을 곱한 값이 있습니다. 우리는 각 관찰이 다른 관찰과 독립적이라고 가정합니다. 다음과 같이 보입니다.

yi0 + β1xi + 그리고i

여기에서 가변적인 유일한 항은 잔차 항입니다. e절편과 기울기는 고정되어 있습니다. 이것은 각 관측치가 다른 관측치와 독립적이라는 기본 가정이 유지되는 데이터에 대해 대부분 충분합니다. 그러나 중첩 데이터의 경우 모든 그룹에 대해 일반화됩니다. 우리는 모든 그룹에 대해 하나의 평균 라인을 가지고 있습니다.

다단계 모델에서는 절편과 계수가 달라지도록 허용합니다. 예측 변수와 응답 변수의 전체 관계를 설명하는 회귀 매개변수를 찾을 뿐만 아니라 더 높은 수준에서 그룹 간에 변할 수 있는 계수의 분산을 추정하는 것 이상으로 진행합니다. 여기서는 두 가지 다단계 모델에 대해 논의합니다.

1 랜덤 인터셉트 모델

무작위 절편 모델에서 절편 항은 클러스터에 따라 달라질 수 있습니다. 이름에서 알 수 있듯이 우리는 절편 항에 대한 확률 변수를 도입할 것입니다. 방정식은 다음과 같습니다.

yij0j + β1xij + 그리고ij  ... .. eq-1

어디서 β0j =  β0 + 유j  … .. eq-2

여기서 i = 개별 관측치 j ​​= 개별 군집

우리가 얻는 두 방정식을 결합하고,

공식 | 다단계 모델링

어디서j ~ N(0, 시그마u2) 및 전자ij N(0, 시그마e2)

이제 이것이 어떻게 작동하는지 이해합시다. 랜덤 인터셉트 모델에서 랜덤 변수 u를 도입했습니다.j 클러스터로 인한 분산을 설명합니다. u각 그룹에 대한 고유한 절편을 담당하는 확률 변수입니다. 단순 회귀에서는 데이터에 가장 잘 맞는 단일 선이 있지만 무작위 절편 모델에서는 공통 회귀 선과 함께 다른 그룹에 대해 다른 회귀 선이 있습니다. 방정식에서 알 수 있듯이 우리는 여전히 계수를 계산할 것입니다. 우리는 특히 무작위 절편 항, 즉 시그마의 분산 계산에 관심이 있습니다.2u.

단순 회귀 모델에는 베타가 있습니다. 가로채기. 랜덤 절편 모델의 경우 베타0 여전히 평균 회귀선에 대한 절편 항이지만 각 그룹에 대한 절편은 베타입니다.0 + 유j. 아래 다이어그램 참조 평균 절편은 베타입니다.0 빨간색 그룹의 경우 바타입니다.0+u1. 유j 인터셉트 베타의 차이입니다.0 및 개별 그룹.

랜덤 인터셉트 모델
이미지는 작성자에게 있습니다

2 랜덤 계수 모델

무작위 절편 모델에서 절편이 무작위로 변하도록 허용한 것처럼 무작위 계수 모형에서는 기울기가 그룹 간에 변하도록 허용합니다. 어떤 경우에는 무작위 절편만으로는 그룹 간의 변동성을 설명하기에 충분하지 않을 수 있습니다. 따라서 각 그룹이 다른 절편과 함께 다른 기울기를 갖는 임의 기울기 모델이 필요합니다. 왜 그래야만하지? 설명 변수는 각 그룹에 대해 다른 효과를 가질 수 있음이 관찰되었습니다. 우리 학교 예에서 입학 컷오프가 시험 결과에 대한 설명 변수인 경우 이전 입학 컷오프 점수에 의해 학생 점수가 크게 영향을 받은 학교가 있을 수 있고 일부 학교가 있을 수 있으며 영향이 덜할 수 있다고 가정해 보겠습니다. 여기에서 우리는 모든 그룹에 대해 동일한 기울기를 사용할 수 없으며 대신 각 그룹에는 기울기가 있습니다.

랜덤 계수 모델

이미지는 작성자에게 있습니다

임의 기울기/계수 모델에 대한 방정식은 다음과 같이 주어집니다.

우리가 얻을 방정식을 대체

공식 | 다단계 모델링

두 개의 확률 변수 u를 도입했습니다.1j 그리고 너0j. 하나는 절편용이고 다른 하나는 기울기용입니다. 아직 눈치채지 못했다면ij 용어는 기울기의 변화를 담당합니다. 그리고 회귀선의 평균 기울기와 개별 그룹의 기울기의 차이입니다. 두 개의 랜덤 변수 beta0과 beta1만 도입했지만 실제로는 XNUMX개의 매개변수를 계산해야 합니다. 베타0 그리고 베타평소와 같이 전체 회귀선을 담당하는 고정 부분이며 임의 부분에 대해서는 시그마를 추정합니다.2u0 및 시그마2u1 u의 분산0j 그리고 너1j 과 시그마u01-  기울기와 절편의 공분산. 기울기와 절편이 연결되어 있음을 알 수 있습니다. 이 둘 사이의 공분산이 양수이면 회귀선이 분기되어 나타나는 반면 음의 공분산은 선이 수렴되고 있음을 나타내고 공분산이 XNUMX이면 고정된 패턴이 없음을 나타냅니다.

가설검정 우도비검정

가설 테스트는 항상 모든 모델 해석의 필수적인 부분입니다. 어떤 매개변수가 중요한지 여부를 아는 것은 참으로 중요합니다. 통계 테스트의 유형은 관찰 중인 매개변수에 따라 다릅니다. 고정 효과 매개변수에 대해 일반 z-검정 및 t-검정을 사용할 수 있습니다. 그러나 무작위 효과에 대한 테스트에는 우도 비율 테스트가 필요합니다.

가능성 비율 테스트:

우도비 테스트를 해석하는 것은 상대적으로 더 쉽습니다. 임의의 가로채기 모델을 다루고 있다고 가정해 보겠습니다. 따라서 LRT를 수행하기 위해 무작위 절편이 있거나 없는 모델을 피팅하고 각 모델의 로그 가능성을 계산합니다. 우도비 테스트 공식은 다음과 같습니다.

여기서 분자는 매개변수가 더 적은(임의 절편 매개변수 없음) 방정식의 대수 가능성이고 분모는 매개변수가 더 큰(임의 절편 매개변수가 있는) 방정식의 대수 가능성입니다.

귀무 가설은 매개변수가 더 적은 모델이 가장 좋은 반면 대안은 무작위 절편 모델이나 더 많은 매개변수가 있는 모델을 선호한다는 것입니다. 또는 null이 시그마이므로 다르게 둘 수도 있습니다.2u = 0은 추가 매개변수를 무시할 수 있음을 의미합니다. 이제 테스트 통계를 가지고 chi와 비교할 것입니다.2 자유도가 추가 매개변수의 수인 분포(params(b) – params(a)). 무작위 절편의 경우 이것은 1입니다. 그런 다음 해당 p-값을 2로 시그마로 나눕니다.2u >= 0. p-값이 알파보다 작으면 대체를 수락하고 귀무를 기각하며, 유의 수준보다 높으면 귀무 가설을 기각하지 않습니다.

엔드노트

이 기사에서는 다단계 모델링의 다양한 측면에 대해 논의했습니다. 다중 수준 모델링은 그룹 간의 분산을 설명하는 데 정규 회귀가 충분하지 않은 연구 관련 데이터 세트에서 자주 사용됩니다. 때때로 일반 회귀 모델이 필요한 결과를 얻기에 충분할 수 있을 때마다 이러한 모델을 구현하는 데 있어 엄격하고 빠른 규칙은 없습니다. 

다중 모델링에 대한 제 글을 읽어주셔서 감사합니다. 당신이 그것을 좋아 바랍니다. 아래 의견에 의견을 공유하십시오.

자세한 내용은 블로그를 확인하세요. 기사

자료 : 브리스톨.ac.uk , Coursera

이 기사에 표시된 미디어는 Analytics Vidhya의 소유가 아니며 작성자의 재량에 따라 사용됩니다. 

출처: https://www.analyticsvidhya.com/blog/2022/01/a-brief-introduction-to-multilevel-modelling/

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?