Zephyrnet Logosu

Çok Düzeyli Modellemeye kısa bir giriş

Tarih:

Bu makale, Veri Bilimi Blogathon.

İçindekiler

  1. Giriş
  2. Çok Düzeyli Modeller
  3. Çok seviyeli modellerin avantajları
  4. Çok Düzeyli Modelleri ne zaman kullanırız?
  5. Çok Düzeyli Model Türleri
  6. Rastgele kesişme modeli
  7. Rastgele katsayı modeli
  8. Hipotez testi: Olabilirlik Oranı Testi
  9. Son Not

Giriş

Diyelim ki bir üniversitenin fakülte maaşları veri setiniz var ve maaşların yılların tecrübesiyle ilişkisiyle ilgileniyorsunuz. Sorunu nasıl çözersiniz? Bağımlı değişken olarak yıllar ve yanıt değişkeni olarak maaş ile doğrusal regresyon. Çok basit, değil mi? Ama fakültelerin bireysel maaşlarının ilgili bölümlere göre değiştiğini söylesem? Computer Sc'den bir öğretmen, bir sosyoloji öğretmeninden daha fazla maaş alıyor olabilir. Dolayısıyla fakülte maaşları üzerinde bölümün etkisinin olduğunu görebiliyoruz. İstatistikçiler buna grup etkisi veya grupların rastgele etkisi diyor. Burada fakülteler grup bölümleri içinde iç içe veya kümelenmiştir. Ve bir seviye daha ileri gidersek ve bölümleri üniversiteler içinde gruplandırırsak ve farklı üniversitelerin fakültelerinin maaşlarını karşılaştırırsak, sonuç farklı olabilir. Bu nedenle, bir grup altındaki veriler ilişkilidir, ancak sıradan bir doğrusal regresyon, verilerin bağımsız olduğunu varsayar. Dolayısıyla, gözlemler arasındaki bu korelasyonları yansıtan modellere ihtiyacımız var. Normal regresyon modeliyle devam edersek, verilerden iyi bir çıkarım yapamayabiliriz.

Çok Düzeyli Modelleme

Çok düzeyli modelleme, gözlemler arasında bir korelasyon olduğunda bağımlı veriler ile bağımsız veriler arasındaki ilişkiyi modellemek için kullanılan istatistiksel bir modeldir. Bu modeller aynı zamanda hiyerarşik modeller, karma efekt modelleri, iç içe veri modelleri veya rastgele katsayı modelleri olarak da bilinir. Burada, bireysel gözlemler farklı gruplar içinde yuvalanmıştır. Her grup içindeki gözlemler birbiriyle ilişkilidir.

Çok Düzeyli Modellemenin Avantajları

Kukla değişkenleri tanıtarak yukarıda verdiğimiz örnek gibi gruplandırılmış verilerde düzenli regresyon modellerini çok iyi kullanabiliriz. Ancak çok düzeyli yaklaşımın çeşitli avantajları vardır.

Daha iyi çıkarımlar: Çok düzeyli bir regresyon, gruplandırılmış verilerden daha iyi çıkarım sağlar. Düzenli bir regresyon modeli, daha sonra katsayıların küçümsenmesine ve katsayı öneminin fazla ifade edilmesine yol açan verilerin gruplandırılmasını dikkate almaz.

Daha az parametre: Normal bir regresyon modelinde grupları hesaba katmak için kukla değişkenlere ihtiyacımız var, ancak çok seviyeli bir regresyonda aynısı için daha az parametreye ihtiyacımız olacak.

Grup etkileri: Genellikle, öğrencilerin test sonuçlarını belirlemede okulların rolü gibi grup etkileriyle özellikle ilgileniriz. Bu, düzenli regresyonlarla elde edilemez, bu nedenle çok seviyeli modeller kullanıyoruz.

Çok Düzeyli Modellemeyi ne zaman kullanırız?

Bir noktada rastgele bir küme örneğinden (okullar, alanlar, hastaneler) bireysel veriler toplandığında, bu kümeler içindeki gözlemlerin benzer olması daha olasıdır. Örneğin, farklı okullardan öğrenciler ortak bir testte farklı performans gösterebilirken, aynı okuldan öğrencilerin performansları bazı benzerliklere sahip olabilir. Burada okullar kümelerdir ve öğrencilerin test puanları okullar içinde iç içe gözlemlerdir. Test puanları ile bazı yordayıcı değişken x arasındaki ilişkiyi modellemek için düzenli bir regresyon uyduruyorsak, o zaman okul düzeyindeki değişkenlerin etkilerini, diyelim ki öğretmenlerin niteliklerini iskonto ediyor olacağız. Basit bir regresyon modeliyle, öğrenci düzeyinde ve okul düzeyinde ne kadar varyasyona neden olduğunu tahmin etmemizin bir yolu yoktur.

Bazı okullar diğerlerinden daha iyi çalışma ortamlarına sahip olabilir veya bir okulun fakülteleri diğerlerinden daha iyi olabilir. Kesişme noktaları veya katsayılar için rasgele değişkenlerin tanıtılması ve ardından bunların varyanslarının tahmin edilmesi, grup etkileri konusunda bize daha iyi bir fikir verecektir, burada çok düzeyli modelleme devreye girer.

Çok Düzeyli Modelleme
resim yazara aittir

Çok seviyeli modeller, aynı bireyin tekrarlanan ölçümlerinin bir süre boyunca alındığı boylamsal çalışmalarda da yararlıdır. Dolayısıyla ölçümlerin her bireyin kendi içinde kümelendiğini söyleyebiliriz. Örneğin, bir grup erkek rastgele seçildi ve sonraki beş yıl boyunca her yıl boyları kaydedildi. Kişi ve boyu arasındaki ilişkiyi modellemek için çok düzeyli modeller kullanabiliriz.

Seviyeler nelerdir:

Yukarıdaki örneklerde öğrenciler, ölçümler, okullar, erkek grupları çok düzeyli bir yapının seviyeleridir. Genel olarak, daha büyük bir popülasyondan örneklenen değişkenler seviyelendirilmeye uygundur. Okullar, daha büyük bir okul popülasyonundan örneklenebilir ve bir okuldaki öğrenciler, daha geniş bir öğrenci popülasyonundan rastgele bir örneklemdir. En temel gözlemler seviye 2 ve sonraki gruplar seviye 3, XNUMX ve benzeri olarak kabul edilir. Örneğin,

seviye 3: Bölgeler, İlçeler, İller

2. seviye: Okullar, Hastaneler, bireyler

seviye 1: Öğrenciler, Fakülteler, ölçümler

Çok Düzeyli Model Türleri

Basit bir regresyon modelinde, bir kesişme terimine, bir eğimle çarpılan bir tahmin değişkenine ve bir artık terime sahibiz. Her gözlemin diğerlerinden bağımsız olduğunu varsayıyoruz. Bunun gibi bir şey görünüyor

yi = β0 + β1xi + Vei

Burada değişken olan tek terim artık terimdir. ekesme ve eğim sabit iken. Bu çoğunlukla, her gözlemin diğerlerinden bağımsız olduğu temel varsayımının geçerli olduğu veriler için yeterlidir. Ancak iç içe veriler söz konusu olduğunda, tüm gruplar için genelleme yapar. Tüm gruplar için tek bir ortalama çizgimiz var.

Çok seviyeli modellerde, kesişim ve katsayının değişmesine izin vereceğiz. Yalnızca tahmin edici ve yanıt değişkenlerinin genel ilişkilerini tanımlayan regresyon parametrelerini bulmakla kalmayacak, aynı zamanda daha yüksek seviyelerde gruplar arasında değişmesine izin verilen katsayıların varyanslarını tahmin etmek için yukarıda ve öteye gideceğiz. Burada iki çok seviyeli modeli tartışacağız

1 Rastgele Kesişme Modeli

Rastgele bir kesişim modelinde, kesişme teriminin kümeler arasında değişmesine izin verilir. Adından da anlaşılacağı gibi, kesişme terimi için rastgele bir değişken tanıtacağız. Denklem şuna benziyor

yij = β0j + β1xij + Veij  ….. denklem-1

nerede β0j =  β0 + senj  ….. eq-2

Burada, i = bireysel gözlemler j = bireysel kümeler

elde ettiğimiz her iki denklemi birleştirerek,

formül | Çok Düzeyli Modelleme

Neredesinj ~ N(0,sigmau2) ve eij N(0,sigmae2)

Şimdi bunun nasıl çalıştığını anlayalım. Rastgele kesişim modelinde, rastgele bir değişken u tanıttıkj kümelerin neden olduğu varyansı hesaba katmak için. uher grup için benzersiz kesişmelerden sorumlu rastgele değişkendir. Basit regresyonda, verilere en iyi uyan tek bir çizgimiz var, ancak rastgele bir kesişim modelinde, ortak bir regresyon çizgisiyle birlikte farklı gruplar için farklı regresyon çizgilerimiz var. Denklemin önerdiği gibi, yine de katsayıları hesaplayacağız. Rastgele kesişme teriminin varyansının hesaplanmasıyla özellikle ilgileniyoruz, yani sigma2u.

Basit bir regresyon modelinde beta olarak kesmek. Rastgele kesişim modeli için beta0 hala ortalama regresyon çizgisi için kesme terimidir, ancak her grup için kesme betadır0 + senj. Aşağıdaki şemaya bakın, ortalama kesişme betadır0 kırmızı grup için ise bata0+u1. senj intercept beta arasındaki farktır0 ve bireysel gruplar.

rastgele kesişme modeli
resim yazara aittir

2 Rastgele Katsayı Modeli

Rastgele bir kesişim modelinde kesişimlerin rastgele değişmesine izin verdiğimiz gibi, rastgele bir katsayı modelinde de eğimin gruplar arasında değişmesine izin veriyoruz. Bazı durumlarda, gruplar arasındaki değişkenliği açıklamak için tek başına rastgele kesişme yeterli olmayabilir. Bu nedenle, her grubun farklı kesişimlerle birlikte farklı eğimlere sahip olacağı rastgele bir eğim modeline ihtiyaç vardır. Neden böyle? Açıklayıcı değişkenlerin her grup için farklı etkileri olabileceği gözlenmiştir. Diyelim ki okul örneğimizde kabul sınırı test sonucu için açıklayıcı bir değişkense, o zaman öğrenci puanlarının önceki giriş kesme puanlarından yüksek oranda etkilendiği okullar olabilir, bazı okullar da olabilir, etki daha az olabilir. Burada her grup için aynı eğimi kullanamayız, bunun yerine her grubun kendi eğimi olacaktır.

rastgele katsayı modeli

Resim yazara aittir

Rastgele bir eğim/katsayı modeli için denklem şu şekilde verilir:

Elde edeceğimiz denklemleri yerine koyarsak

formül | Çok Düzeyli Modelleme

İki rastgele değişken u tanıttık1j ve sen0j. biri kesişim için, diğeri eğim için. Bunu daha önce fark etmediysenizij Terim, eğimlerdeki değişimden sorumludur. Ve bu, regresyon doğrusunun ortalama eğimi ile bireysel grupların eğimi arasındaki farktır. Yalnızca iki rastgele değişken beta0 ve beta1 tanıttığımızı, ancak gerçekte altı parametreyi hesaplamamız gerektiğini unutmayın. beta0 ve betaher zamanki gibi, genel regresyon çizgisinden sabit parçalar sorumluyken, rastgele kısım için sigma'yı tahmin edeceğiz2u0 ve sigma2u1 senin varyansların0j ve sen1j ve sigmau01-  eğimlerin ve kesişimlerin kovaryansı. Eğimlerin ve kesişimlerin bağlantılı olduğu görülmektedir. Bu ikisi arasındaki kovaryans pozitif olduğunda, regresyon çizgileri birbirinden uzaklaşıyor gibi görünecek, negatif kovaryans ise çizgilerin yakınsadığını ve sıfır kovaryans sabit bir model olmadığını gösterecek.

Hipotez Testi Olabilirlik Oran Testi

Hipotez testi her zaman herhangi bir modelin yorumlanmasının ayrılmaz bir parçasıdır. Herhangi bir parametrenin anlamlı olup olmadığını bilmek gerçekten önemlidir. İstatistiksel testin türü, gözlemlenen parametreye bağlı olarak değişecektir. Sabit etki parametrelerimiz için normal z testleri ve t testleri kullanabiliriz. Ancak rastgele etkiler testi, olabilirlik oranı testi gerektirecektir.

Olasılık Oranı Testi:

Olabilirlik oranı testini yorumlamak nispeten daha kolaydır. Rastgele bir kesişim modeliyle uğraştığımızı varsayalım. Bu nedenle, bir LRT gerçekleştirmek için rastgele kesişimli ve kesişimsiz modele uyacağız ve her modelin log-olasılığını hesaplayacağız. Olabilirlik oranı testi için formül şu şekilde verilir:

burada pay, daha az parametreli (rastgele kesme parametresi olmayan) denklemlerin log-olasılığıdır ve payda, daha büyük parametreli (rastgele kesişme parametreli) denklemlerin log olasılığıdır.

Sıfır hipotezi, daha az parametreye sahip modelin en iyisi olduğu, alternatifin ise daha fazla parametreli bir rastgele kesişme modeli veya modeli lehine olmasıdır. Veya null sigma olduğu için farklı şekilde de ifade edebiliriz.2u = 0 bu, ekstra parametreyi göz ardı edebileceğimiz anlamına gelir. Şimdi elimizdeki test istatistiği ile bunu chi ile karşılaştıracağız.2 serbestlik derecesinin ekstra parametrelerin sayısı olduğu dağılım (params(b) – params(a)). Rastgele bir kesişim durumunda, bu 1'dir, sonra karşılık gelen p-değerini sigma olarak 2'ye bölün.2u >= 0. Eğer p değeri alfadan küçükse, alternatifi kabul eder ve boş değeri reddederiz ve anlamlılık seviyesinin üzerindeyse boş hipotezi reddetmeyiz.

Son Not

Bu makalede, çok düzeyli modellemenin çeşitli yönlerini tartıştık. Çok düzeyli modelleme, genellikle, gruplar arasındaki varyansları açıklamada düzenli bir regresyonun yeterli olmadığı araştırmayla ilgili veri kümelerinde kullanılır. Bu modelleri her zaman uygulamak için katı ve hızlı kurallar yoktur, bazen istenen sonucu elde etmek için düzenli bir regresyon modeli yeterli olabilir. 

Çoklu modelleme hakkındaki makalemi okuduğunuz için teşekkür ederim. Umarım Beğenirsin. Görüşlerinizi aşağıdaki yorumlarda paylaşın.

Daha fazlası için blogumuza göz atın mal

Kaynaklar: bristol.ac.uk , Coursera

Bu makalede gösterilen medya Analytics Vidhya'ya ait değildir ve Yazarın takdirine bağlı olarak kullanılır. 

Kaynak: https://www.analyticsvidhya.com/blog/2022/01/a-brief-introduction-to-multilevel-modelling/

spot_img

En Son İstihbarat

spot_img