Zephyrnet-logo

Een korte introductie tot Multilevel Modeling

Datum:

Dit artikel is gepubliceerd als onderdeel van het Data Science-blogathon.

Inhoudsopgave

  1. Introductie
  2. Modellen met meerdere niveaus
  3. Voordelen van modellen met meerdere niveaus
  4. Wanneer gebruiken we modellen met meerdere niveaus?
  5. Typen modellen met meerdere niveaus
  6. Willekeurig onderscheppingsmodel
  7. Willekeurig coëfficiëntmodel
  8. Hypothese testen: waarschijnlijkheidsverhouding testen
  9. Eindnoot

Introductie

Stel, je hebt een dataset van facultaire salarissen van een universiteit en je bent geïnteresseerd in de relatie van salarissen met jarenlange ervaring. Hoe zou u het probleem aanpakken? Lineaire regressie met jaren als afhankelijke variabele en salaris als responsvariabele. Het is eenvoudig, nietwaar? Maar wat als ik je vertel dat de individuele salarissen van faculteiten variëren met de respectievelijke afdelingen. Een leraar van Computer Sc krijgt misschien meer loon dan een leraar sociologie. We kunnen dus zien dat er een effect is van de afdeling op de salarissen van de faculteiten. De statistici noemen het het groepseffect of willekeurig effect van groepen. Hierbij zijn de faculteiten genest of geclusterd binnen de groepsafdelingen. En als we een niveau verder gaan en afdelingen binnen universiteiten groeperen en salarissen van faculteiten van verschillende universiteiten vergelijken, kan het resultaat anders zijn. De gegevens onder een groep zijn dus gecorreleerd, maar een gewone lineaire regressie gaat ervan uit dat de gegevens onafhankelijk zijn. We hebben dus modellen nodig die deze correlaties tussen waarnemingen weerspiegelen. Als we doorgaan met het reguliere regressiemodel, krijgen we mogelijk geen goede gevolgtrekking uit de gegevens.

Modellering op meerdere niveaus

Modellering op meerdere niveaus is een statistisch model dat wordt gebruikt om de relatie tussen afhankelijke gegevens en onafhankelijke gegevens te modelleren wanneer er een correlatie is tussen waarnemingen. Deze modellen worden ook wel hiërarchische modellen, mixed effect-modellen, geneste datamodellen of random-coëfficiëntmodellen genoemd. Hier zijn de individuele waarnemingen genest in verschillende groepen. De waarnemingen binnen elke groep zijn gecorreleerd.

Voordelen van modellering op meerdere niveaus

We kunnen heel goed reguliere regressiemodellen gebruiken in gegroepeerde gegevens zoals het voorbeeld dat we hierboven gaven door dummy-variabelen te introduceren. Maar de aanpak op meerdere niveaus heeft verschillende voordelen:

Betere gevolgtrekkingen: Een regressie op meerdere niveaus biedt een betere gevolgtrekking uit gegroepeerde gegevens. Een regulier regressiemodel houdt geen rekening met de groepering van gegevens, wat vervolgens leidt tot onderschatting van coëfficiënten en overschatting van de significantie van coëfficiënten.

Minder parameters: Met een regulier regressiemodel hebben we dummy-variabelen nodig om rekening te houden met groepen, maar met een regressie op meerdere niveaus hebben we minder parameters nodig.

Groepseffecten: Vaak zijn we specifiek geïnteresseerd in groepseffecten zoals de rol van scholen bij het bepalen van toetsresultaten van leerlingen. Dit kan niet worden bereikt door regelmatige regressies, dus gebruiken we modellen op meerdere niveaus.

Wanneer gebruiken we Multilevel Modelling?

Wanneer individuele gegevens op een bepaald moment worden verzameld uit een willekeurige steekproef van clusters (scholen, gebieden, ziekenhuizen), is de kans groter dat waarnemingen binnen deze clusters vergelijkbaar zijn. Studenten van verschillende scholen kunnen bijvoorbeeld anders presteren in een gemeenschappelijke test, terwijl de prestaties van studenten van dezelfde school enige overeenkomsten kunnen hebben. Hier zijn de scholen clusters en zijn testscores van leerlingen observaties die binnen scholen zijn genest. Als we een reguliere regressie passen om de relatie tussen testscores en een voorspellende variabele x te modelleren, dan verdisconteren we de effecten van variabelen op schoolniveau, laten we zeggen kwalificaties van leraren. Met een eenvoudig regressiemodel kunnen we op geen enkele manier inschatten hoeveel variatie er wordt veroorzaakt op leerlingenniveau en hoeveel op schoolniveau.

Sommige scholen hebben misschien een betere studieomgeving dan andere, of de faculteiten van de ene school zijn beter dan die van andere. Het introduceren van willekeurige variabelen voor intercepts of coëfficiënten en het schatten van hun variantie zal ons een beter idee geven over groepseffecten, dit is waar multilevel-modellering in beeld komt.

Modellering op meerdere niveaus
afbeelding is van de auteur

Multilevel-modellen zijn ook nuttig in longitudinale studies waarbij herhaalde metingen van hetzelfde individu gedurende een tijdje worden uitgevoerd. We kunnen dus zeggen dat de metingen geclusterd zijn binnen elk individu. Er werd bijvoorbeeld willekeurig een groep jongens gekozen en hun lengte werd de komende vijf jaar elk jaar geregistreerd. We kunnen modellen op meerdere niveaus gebruiken om de relatie tussen de persoon en zijn lengte te modelleren.

Wat zijn niveaus:

In de bovenstaande voorbeelden zijn de leerlingen, metingen, scholen, groepen jongens niveaus van een structuur met meerdere niveaus. Over het algemeen komen de variabelen die zijn bemonsterd uit een grotere populatie in aanmerking om te worden genivelleerd. Scholen kunnen worden bemonsterd uit een grotere populatie scholen en studenten op een school zijn een willekeurige steekproef uit een grotere populatie studenten. De meest fundamentele observaties worden beschouwd als niveau één en volgende groepen als niveau 2, 3 enzovoort. Bijvoorbeeld,

niveau 3: Gebieden, Districten, Provincies

niveau 2: Scholen, Ziekenhuizen, particulieren

niveau 1: Studenten, faculteiten, metingen

Typen modellen met meerdere niveaus

In een eenvoudig regressiemodel hebben we een intercept-term, een voorspellende variabele vermenigvuldigd met een helling en een restterm. We nemen aan dat elke waarneming onafhankelijk is van andere. Het ziet er ongeveer zo uit

yi =0 + β1xi + Eni

Hier is de enige variabele die variabel is de resterende term eterwijl het snijpunt en de helling vast zijn. Dit is meestal voldoende voor gegevens waarbij de basisveronderstelling geldt dat elke waarneming onafhankelijk is van andere. Maar in het geval van geneste gegevens generaliseert het voor alle groepen. We hebben één gemiddelde regel voor alle groepen.

In modellen met meerdere niveaus laten we het onderscheppen en de coëfficiënt variëren. We zullen niet alleen de regressieparameters vinden die de algemene relaties van voorspeller- en responsvariabelen beschrijven, maar we gaan ook verder dan het schatten van varianties van de coëfficiënten die tussen groepen op hogere niveaus mogen variëren. Hier zullen we twee multilevel-modellen bespreken:

1 willekeurig onderscheppingsmodel

In een willekeurig onderscheppingsmodel mag de onderscheppingsterm variëren tussen de clusters. Zoals de naam al doet vermoeden, introduceren we een willekeurige variabele voor de intercept-term. De vergelijking ziet er ongeveer zo uit:

yij =0j + β1xij + Enij  ….. vgl. 1

waar0j =  β0 + jijj  ….. eq-2

Hier, i = individuele waarnemingen j = individuele clusters

het combineren van beide vergelijkingen die we krijgen,

Formule | Modellering op meerdere niveaus

waar jijj ~ N(0,sigmau2) en eij N(0,sigmae2)

Laten we nu eens begrijpen hoe dit werkt. In het random intercept-model hebben we een willekeurige variabele u . geïntroduceerdj om rekening te houden met de variantie veroorzaakt door clusters. uis de willekeurige variabele die verantwoordelijk is voor unieke intercepts voor elke groep. Bij eenvoudige regressie hebben we een enkele lijn die het beste bij de gegevens past, maar in een willekeurig onderscheppingsmodel hebben we verschillende regressielijnen voor verschillende groepen, samen met een gemeenschappelijke regressielijn. Zoals de vergelijking suggereert, zullen we nog steeds de coëfficiënten berekenen. We zijn specifiek geïnteresseerd in de berekening van de variantie van de willekeurige intercept-term ie sigma2u.

In een eenvoudig regressiemodel hebben we bèta als onderscheppen. Voor het willekeurige onderscheppingsmodel, beta0 is nog steeds de intercept-term voor de gemiddelde regressielijn, maar voor elke groep is de intercept beta0 + jijj. Zie onderstaand diagram, het gemiddelde intercept is bèta0 terwijl het voor de rode groep bata . is0+u1. jijj is het verschil tussen de intercept beta0 en individuele groepen.

willekeurig onderscheppingsmodel
afbeelding is van de auteur

2 Willekeurig coëfficiëntmodel

Net zoals we onderscheppingen willekeurig lieten variëren in een willekeurig onderscheppingsmodel, laten we in een willekeurig coëfficiëntenmodel de helling variëren tussen de groepen. In sommige gevallen is willekeurig onderscheppen alleen niet voldoende om de variabiliteit tussen de groepen te verklaren. Er is dus een willekeurig hellingsmodel nodig waarbij elke groep verschillende hellingen en verschillende intercepts heeft. Waarom is het zo? Er werd waargenomen dat verklarende variabelen voor elke groep verschillende effecten kunnen hebben. Laten we aannemen dat in ons schoolvoorbeeld, als de toelatingslimiet een verklarende variabele is voor de testresultaten, er scholen zouden kunnen zijn waar de studentenscores sterk werden beïnvloed door de vorige toelatingslimietscores, er kunnen ook enkele scholen zijn, het effect kan minder zijn. Hier kunnen we niet voor elke groep dezelfde helling gebruiken, maar heeft elke groep zijn helling.

willekeurig coëfficiëntmodel

De afbeelding is van de auteur

De vergelijking voor een model met willekeurige helling/coëfficiënt wordt gegeven als

Vervangende vergelijkingen zullen we krijgen

formule | Modellering op meerdere niveaus

We introduceerden twee willekeurige variabelen u1j en jij0j. een voor het onderscheppen en de andere voor de helling. Als het je nog niet is opgevallen, jeij term is verantwoordelijk voor variatie in hellingen. En het is het verschil tussen de gemiddelde helling van de regressielijn en de helling van de individuele groepen. Merk op dat we slechts twee willekeurige variabelen beta0 en beta1 hebben geïntroduceerd, maar in werkelijkheid zullen we zes parameters moeten berekenen. bèta0 en bètazoals gewoonlijk zijn vaste delen verantwoordelijk voor de algehele regressielijn, terwijl we voor het willekeurige deel sigma zullen schatten2u0 en sigma2u1 de varianties van u0j en jij1j en sigmau01-  covariantie van de hellingen en intercepts. Opgemerkt wordt dat de hellingen en intercepts met elkaar verbonden zijn. Wanneer de covariantie tussen deze twee positief is, zullen de regressielijnen divergeren, terwijl negatieve covariantie suggereert dat de lijnen convergeren en nul-covariantie geen vast patroon suggereert.

Hypothese Testen Waarschijnlijkheidsratio Testen

Het testen van hypothesen is altijd een integraal onderdeel van de interpretatie van elk model. Het is inderdaad belangrijk om te weten of een parameter significant is of niet. Het type statistische test hangt af van de parameter die wordt geobserveerd. We kunnen reguliere z-tests en t-tests gebruiken voor onze fixed effect parameters. Maar de test voor willekeurige effecten vereist het testen van de waarschijnlijkheidsratio.

Waarschijnlijkheidsratio testen:

Het interpreteren van aannemelijkheidsratio-testen is relatief eenvoudiger. Laten we aannemen dat we te maken hebben met een willekeurig onderscheppingsmodel. Om een ​​LRT uit te voeren, passen we het model met en zonder willekeurige interceptie aan en berekenen we de logwaarschijnlijkheid van elk model. De formule voor het testen van de waarschijnlijkheidsverhouding wordt gegeven als

waarbij de teller de log-waarschijnlijkheid is van vergelijkingen met minder parameters (geen willekeurige intercept-parameter) en de noemer de log-waarschijnlijkheid is van vergelijkingen met grotere parameters (met willekeurige intercept-parameter).

De nulhypothese is dat een model met minder parameters het beste is, terwijl het alternatief voorstander is van een willekeurig onderscheppingsmodel of een model met meer parameters. Of we kunnen het ook anders stellen, want de nul is sigma2u = 0 wat betekent dat we de extra parameter kunnen negeren. Nu met de teststatistiek in de hand, zullen we deze vergelijken met de chi2 verdeling waarbij de vrijheidsgraad het aantal extra parameters is (params(b) – params(a)). In een willekeurig onderscheppingsgeval is dit 1. deel vervolgens de corresponderende p-waarde door 2 als sigma2u >= 0. Als de p-waarde kleiner is dan alfa, accepteren we alternatief en verwerpen we de nul en als deze boven het significantieniveau ligt, zullen we de nulhypothese niet verwerpen.

Eindnoot

In dit artikel hebben we verschillende facetten van multilevel-modellering besproken. Modellering op meerdere niveaus wordt vaak gebruikt in onderzoeksgerelateerde datasets waar een regelmatige regressie niet voldoende is om varianties tussen groepen te verklaren. Er zijn geen vaste regels om deze modellen elke keer te implementeren, soms kan een regulier regressiemodel voldoende zijn om het vereiste resultaat te bereiken. 

Bedankt voor het lezen van mijn artikel over meervoudig modelleren. Ik hoop dat je het leuk vind. Deel uw mening in de opmerkingen hieronder.

Bekijk onze blog voor meer artikelen

Bronnen: bristol.ac.uk , Coursera

De in dit artikel getoonde media zijn geen eigendom van Analytics Vidhya en worden naar goeddunken van de auteur gebruikt. 

Bron: https://www.analyticsvidhya.com/blog/2022/01/a-brief-introduction-to-multilevel-modelling/

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?