この記事は、の一部として公開されました データサイエンスブログソン.
目次
- 概要
- マルチレベルモデル
- マルチレベルモデルの利点
- マルチレベルモデルはいつ使用しますか
- マルチレベルモデルの種類
- ランダム切片モデル
- ランダム係数モデル
- 仮説検定:尤度比検定
- エンドノート
概要
大学の教員給与のデータセットがあり、給与と長年の経験との関係に関心があるとします。 問題にどのように対処しますか? 年を従属変数、給与を応答変数とする線形回帰。 簡単ですね。 しかし、学部の個々の給与は各学部によって異なると言ったらどうでしょうか。 Computer Scの教師は、社会学の教師よりも多くの報酬を得ている可能性があります。 したがって、学部の給与に影響があることがわかります。 統計家はそれをグループ効果またはグループのランダム効果と呼んでいます。 ここでは、学部はグループ部門内にネストまたはクラスター化されています。 さらにレベルを上げて大学内の学部をグループ化し、異なる大学の学部の給与を比較すると、結果が異なる可能性があります。 したがって、グループの下のデータは相関していますが、通常の線形回帰ではデータが独立していると想定しています。 したがって、観測間のこれらの相関関係を反映するモデルが必要です。 通常の回帰モデルを続行すると、データから適切な推論が得られない可能性があります。
マルチレベルモデリング
マルチレベルモデリングは、観測値間に相関関係がある場合に、従属データと独立データの間の関係をモデル化するために使用される統計モデルです。 これらのモデルは、階層モデル、混合効果モデル、ネストされたデータモデル、またはランダム係数モデルとも呼ばれます。 ここでは、個々の観測値が異なるグループ内にネストされています。 各グループ内の観測値は相関しています。
マルチレベルモデリングの利点
ダミー変数を導入することにより、上記の例のように、グループ化されたデータで通常の回帰モデルを非常にうまく使用できます。 しかし、マルチレベルアプローチにはいくつかの利点があります
より良い推論: マルチレベル回帰は、グループ化されたデータからのより良い推論を提供します。 通常の回帰モデルでは、データのグループ化は考慮されていません。これにより、係数が過小評価され、係数の有意性が過大評価されます。
より少ないパラメータ: 通常の回帰モデルでは、グループを説明するためにダミー変数が必要ですが、マルチレベル回帰では、同じものに対して必要なパラメーターが少なくなります。
グループ効果: 多くの場合、生徒のテスト結果を決定する際の学校の役割など、グループ効果に特に関心があります。 これは通常の回帰では達成できないため、マルチレベルモデルを使用します。
マルチレベルモデリングはいつ使用しますか?
ある時点でクラスター(学校、地域、病院)のランダムなサンプルから個々のデータが収集される場合、これらのクラスター内の観測値は類似している可能性が高くなります。 たとえば、異なる学校の生徒は共通のテストで異なるパフォーマンスを示す可能性がありますが、同じ学校の生徒のパフォーマンスにはいくつかの類似点がある可能性があります。 ここでは、学校はクラスターであり、生徒のテストスコアは学校内にネストされた観測値です。 テストスコアといくつかの予測変数xの間の関係をモデル化するために通常の回帰を当てはめる場合、学校レベルの変数、たとえば教師の資格の影響を割り引くことになります。 単純な回帰モデルでは、生徒レベルでどの程度の変動が発生し、学校レベルでどの程度の変動が発生するかを推定する方法はありません。
いくつかの学校は他の学校よりも良い学習環境を持っているかもしれませんし、ある学校の学部は他の学校よりも優れているかもしれません。 切片または係数に確率変数を導入し、それらの分散を推定することで、グループ効果に関するより良いアイデアが得られます。ここで、マルチレベルモデリングが重要になります。
マルチレベルモデルは、同じ個人の反復測定がしばらくの間行われる縦断研究でも役立ちます。 したがって、測定値は各個人内でクラスター化されていると言えます。 たとえば、男の子のグループがランダムに選択され、その身長は今後XNUMX年間にわたって毎年記録されました。 マルチレベルモデルを使用して、人と身長の関係をモデル化できます。
レベルとは何ですか:
上記の例では、生徒、測定値、学校、男の子のグループは、マルチレベル構造のレベルです。 一般に、より多くの母集団からサンプリングされた変数は、平準化する資格があります。 学校はより多くの学校からサンプリングすることができ、学校の生徒はより多くの生徒からランダムにサンプリングされます。 最も基本的な観測は、レベル2以降のグループはレベル3、XNUMXなどと見なされます。 例えば、
レベル3:地域、地区、州
レベル2:学校、病院、個人
レベル1:学生、学部、測定
マルチレベルモデルの種類
単純な回帰モデルでは、切片項、勾配を掛けた予測変数、および残余項があります。 各観測値は他の観測値から独立していると想定しています。 こんな感じ
yi =β0 +β1xi +そしてi
ここで、可変である唯一の項は残余項です ei 切片と勾配は固定されています。 これは、各観測値が他の観測値から独立しているという基本的な仮定が成り立つデータにはほとんど十分です。 ただし、ネストされたデータの場合は、すべてのグループに対して一般化されます。 すべてのグループに対して単一の平均線があります。
マルチレベルモデルでは、切片と係数を変化させることができます。 予測変数と応答変数の全体的な関係を説明する回帰パラメーターを見つけるだけでなく、より高いレベルでグループ間で変化することが許可されている係数の分散を推定することもできます。 ここでは、XNUMXつのマルチレベルモデルについて説明します
1ランダムインターセプトモデル
ランダム切片モデルでは、切片の項はクラスター間で変化することが許可されています。 名前が示すように、切片項に確率変数を導入します。 方程式は次のようになります
yij =β0j +β1xij +そしてij …..eq-1
ここで、β0j = β0 +うj …..eq-2
ここで、i =個々の観測値j =個々のクラスター
得られた両方の方程式を組み合わせて、
ここでuj 〜N(0、シグマu2)およびeij ~ N(0、シグマe2)
それでは、これがどのように機能するかを理解しましょう。 ランダム切片モデルでは、確率変数uを導入しましたj クラスターによって引き起こされる分散を説明するため。 uj 各グループの一意の切片を担当する確率変数です。 単純な回帰では、データに最適な単一の線がありますが、ランダム切片モデルでは、共通の回帰線とともに、グループごとに異なる回帰線があります。 方程式が示すように、係数を計算します。 特に、ランダム切片項、つまりシグマの分散の計算に関心があります。2u.
単純な回帰モデルでは、ベータがあります0 切片として。 ランダム切片モデルの場合、ベータ0 は依然として平均回帰直線の切片項ですが、各グループの切片はベータ値です0 +うj。 下の図を参照してください平均切片はベータです0 赤いグループの場合はバタです0+u1。 uj インターセプトベータの違いです0 と個々のグループ。
2ランダム係数モデル
ランダム切片モデルで切片をランダムに変化させるのと同じように、ランダム係数モデルでは、グループ間で勾配を変化させることができます。 場合によっては、ランダムな切片だけでは、グループ間のばらつきを説明するのに十分ではない可能性があります。 したがって、各グループが異なる切片とともに異なる勾配を持つランダムな勾配モデルが必要です。 なんでそうなの? 説明変数は、グループごとに異なる影響を与える可能性があることが観察されました。 私たちの学校の例で、入学カットオフがテスト結果の説明変数である場合、学生のスコアが以前の入学カットオフスコアの影響を強く受けた学校があるかもしれませんし、いくつかの学校もあるかもしれませんが、効果は少ないかもしれません。 ここでは、すべてのグループに同じ勾配を使用することはできません。代わりに、各グループに勾配があります。
画像は作者のものです
ランダム勾配/係数モデルの方程式は次のように与えられます。
方程式を代入すると、
XNUMXつの確率変数uを導入しました1j そしてあなた0j。 XNUMXつは切片用で、もうXNUMXつは斜面用です。 あなたがまだこのuに気づいていないならij 項は勾配の変動に関与します。 そして、それは回帰直線の平均勾配と個々のグループの勾配の差です。 導入した確率変数beta0とbeta1はXNUMXつだけですが、実際にはXNUMXつのパラメーターを計算する必要があることに注意してください。 ベータ0 とベータ1 いつものように、全体的な回帰直線の原因となる固定部分ですが、ランダム部分についてはシグマを推定します2u0 とシグマ2u1 uの分散0j そしてあなた1j & シグマu01– 勾配と切片の共分散。 傾斜と切片がリンクしていることが観察されます。 これらXNUMXつの間の共分散が正の場合、回帰直線は発散しているように見えますが、負の共分散は線が収束していることを示し、共分散がゼロの場合は固定パターンがないことを示します。
仮説検定尤度比検定
仮説検定は、常にモデルの解釈の不可欠な部分です。 パラメータが重要かどうかを知ることは確かに重要です。 統計的検定の種類は、観察中のパラメーターによって異なります。 固定効果パラメーターには、通常のz検定とt検定を使用できます。 ただし、ランダム効果の検定には、尤度比検定が必要です。
尤度比検定:
尤度比検定の解釈は比較的簡単です。 ランダム切片モデルを扱っているとしましょう。 したがって、LRTを実行するために、ランダム切片がある場合とない場合のモデルを近似し、各モデルの対数尤度を計算します。 尤度比検定の式は次のように与えられます。
ここで、分子はパラメーターが少ない(ランダムな切片パラメーターがない)方程式の対数尤度であり、分母はパラメーターが大きい(ランダムな切片パラメーターがある)方程式の対数尤度です。
帰無仮説は、パラメーターが少ないモデルが最適であり、代替モデルはランダム切片モデルまたはパラメーターが多いモデルを支持するというものです。 または、nullはシグマであるため、別の言い方をすることもできます2u = 0は、余分なパラメーターを無視できることを意味します。 検定統計量が手元にあるので、それをカイと比較します2 自由度が追加のパラメーターの数である分布(params(b)– params(a))。 ランダム切片の場合、これは1です。次に、対応するp値を2でシグマとして除算します。2u > =0。p値がアルファ未満の場合、代替を受け入れて帰無仮説を棄却し、有意水準を超えている場合、帰無仮説を棄却しません。
エンドノート
この記事では、マルチレベルモデリングのさまざまな側面について説明しました。 マルチレベルモデリングは、グループ間の分散を説明するのに定期的な回帰では不十分な研究関連のデータセットでよく使用されます。 必要な結果を達成するには、通常の回帰モデルで十分な場合があるたびに、これらのモデルを実装するための厳格なルールはありません。
複数のモデリングに関する私の記事を読んでいただきありがとうございます。 あなたがそれを気に入ったことを願っています。 以下のコメントであなたの意見を共有してください。
詳細については、ブログをご覧ください 物品.
<ご参考> ブリストル.ac.uk , Coursera
この記事に示されているメディアは Analytics Vidhya が所有するものではなく、著者の裁量で使用されています。
関連記事
出典:https://www.analyticsvidhya.com/blog/2022/01/a-brief-introduction-to-multilevel-modelling/