Logo Zéphyrnet

Une brève introduction à la modélisation multiniveaux

Date :

Cet article a été publié dans le cadre du Blogathon sur la science des données.

Table des matières

  1. Introduction
  2. Modèles multiniveaux
  3. Avantages des modèles multiniveaux
  4. Quand utilisons-nous des modèles multiniveaux
  5. Types de modèle à plusieurs niveaux
  6. Modèle d'interception aléatoire
  7. Modèle à coefficient aléatoire
  8. Test d'hypothèse : test du rapport de vraisemblance
  9. Note de fin

Introduction

Supposons que vous disposiez d'un ensemble de données sur les salaires des professeurs d'une université et que vous vous intéressiez à la relation entre les salaires et les années d'expérience. Comment régleriez-vous le problème ? Régression linéaire avec les années comme variable dépendante et le salaire comme variable de réponse. C'est simple, n'est-ce pas ? Mais que se passe-t-il si je vous dis que les salaires individuels des facultés varient selon les départements respectifs. Un professeur d'informatique pourrait être mieux payé qu'un professeur de sociologie. Donc, on voit qu'il y a un effet du département sur les salaires des professeurs. Les statisticiens appellent cela l'effet de groupe ou l'effet aléatoire des groupes. Ici, les facultés sont imbriquées ou regroupées au sein des départements du groupe. Et si nous allons un peu plus loin et regroupons les départements au sein des universités et comparons les salaires des facultés de différentes universités, le résultat pourrait être différent. Ainsi, les données d'un groupe sont corrélées, mais une régression linéaire ordinaire suppose que les données sont indépendantes. Nous avons donc besoin de modèles qui reflètent ces corrélations entre les observations. Si nous continuons avec le modèle de régression régulier, nous pourrions ne pas obtenir une bonne inférence à partir des données.

Modélisation multiniveau

La modélisation multiniveau est un modèle statistique utilisé pour modéliser la relation entre les données dépendantes et les données indépendantes lorsqu'il existe une corrélation entre les observations. Ces modèles sont également appelés modèles hiérarchiques, modèles à effets mixtes, modèles de données imbriqués ou modèles à coefficients aléatoires. Ici, les observations individuelles sont imbriquées dans différents groupes. Les observations au sein de chaque groupe sont corrélées.

Avantages de la modélisation multiniveau

On peut très bien utiliser des modèles de régression réguliers dans des données groupées comme l'exemple que nous avons donné ci-dessus en introduisant des variables muettes. Mais l'approche multiniveau présente plusieurs avantages

Meilleures inférences : Une régression à plusieurs niveaux fournit une meilleure inférence à partir de données groupées. Un modèle de régression régulier ne tient pas compte du regroupement des données, ce qui conduit ensuite à une sous-estimation des coefficients et à une surestimation de la signification des coefficients.

Moins de paramètres : Avec un modèle de régression régulier, nous avons besoin de variables fictives pour tenir compte des groupes, mais avec une régression à plusieurs niveaux, nous aurons besoin de moins de paramètres pour la même chose.

Effets de groupe : Souvent, nous nous intéressons spécifiquement aux effets de groupe tels que le rôle des écoles dans la détermination des résultats des élèves aux tests. Ceci ne peut pas être atteint par des régressions régulières, nous utilisons donc des modèles multiniveaux.

Quand utilisons-nous la modélisation multiniveau ?

Lorsque des données individuelles sont collectées à partir d'un échantillon aléatoire de grappes (écoles, zones, hôpitaux) à un moment donné, les observations au sein de ces grappes sont plus susceptibles d'être similaires. Par exemple, les élèves de différentes écoles peuvent avoir des performances différentes dans un test commun, tandis que les performances des élèves de la même école peuvent présenter certaines similitudes. Ici, les écoles sont des grappes et les résultats des tests des élèves sont des observations imbriquées dans les écoles. Si nous ajustons une régression régulière pour modéliser la relation entre les résultats des tests et une variable prédictive x, nous actualiserons les effets des variables au niveau de l'école, disons les qualifications des enseignants. Avec un modèle de régression simple, il est impossible d'estimer la quantité de variation causée au niveau des élèves et celle au niveau de l'école.

Certaines écoles peuvent avoir de meilleurs environnements d'étude que d'autres ou les facultés d'une école sont meilleures que d'autres. L'introduction de variables aléatoires pour les interceptions ou les coefficients puis l'estimation de leur variance nous apportera une meilleure idée des effets de groupe, c'est là que la modélisation multiniveau entre en jeu.

Modélisation multiniveau
l'image appartient à l'auteur

Les modèles multiniveaux sont également utiles dans les études longitudinales où des mesures répétées du même individu sont prises pendant un certain temps. Ainsi, nous pouvons dire que les mesures sont regroupées au sein de chaque individu. Par exemple, un groupe de garçons a été choisi au hasard et leur taille a été enregistrée chaque année au cours des cinq années suivantes. Nous pouvons utiliser des modèles multiniveaux pour modéliser la relation entre la personne et sa taille.

Quels sont les niveaux :

Dans les exemples ci-dessus, les élèves, les mesures, les écoles, les groupes de garçons sont des niveaux d'une structure à plusieurs niveaux. Généralement, les variables échantillonnées à partir d'une population plus large peuvent être nivelées. Les écoles peuvent être échantillonnées à partir d'une plus grande population d'écoles et les élèves d'une école sont un échantillon aléatoire d'une population plus large d'élèves. Les observations les plus fondamentales sont considérées comme le niveau un et les groupes suivants comme les niveaux 2, 3 et ainsi de suite. Par example,

niveau 3 : Régions, Districts, Provinces

niveau 2 : Ecoles, Hôpitaux, particuliers

niveau 1 : Etudiants, Facultés, mesures

Types de modèle à plusieurs niveaux

Dans un modèle de régression simple, nous avons un terme d'interception, une variable prédictive multipliée par une pente et un terme résiduel. Nous supposons que chaque observation est indépendante des autres. Ça ressemble à ça

yi =0 + β1xi + eti

Ici, le seul terme variable est le terme résiduel etandis que l'ordonnée à l'origine et la pente sont fixes. Ceci est généralement suffisant pour les données où l'hypothèse de base selon laquelle chaque observation est indépendante des autres est valable. Mais dans le cas de données imbriquées, elle se généralise pour tous les groupes. Nous avons une ligne moyenne unique pour tous les groupes.

Dans les modèles multiniveaux, nous permettrons à l'ordonnée à l'origine et au coefficient de varier. Non seulement nous trouverons les paramètres de régression décrivant les relations globales des variables prédictives et de réponse, mais nous irons également au-delà pour estimer les variances des coefficients autorisés à varier entre les groupes à des niveaux plus élevés. Ici, nous allons discuter de deux modèles multiniveaux

1 modèle d'interception aléatoire

Dans un modèle d'interception aléatoire, le terme d'interception peut varier d'un groupe à l'autre. Comme son nom l'indique, nous allons introduire une variable aléatoire pour le terme d'interception. L'équation ressemble à ceci

yij =0j + β1xij + etij  ….. éq-1

où β0j =  β0 + toij  ….. éq-2

Ici, i = observations individuelles j = grappes individuelles

combinant les deux équations que nous obtenons,

Formule | Modélisation multiniveau

où es-tuj ~ N(0,sigmau2) et eij N(0,sigmae2)

Maintenant, comprenons comment cela fonctionne. Dans le modèle d'interception aléatoire, nous avons introduit une variable aléatoire uj pour tenir compte de la variance causée par les clusters. uest la variable aléatoire responsable des interceptions uniques pour chaque groupe. Dans la régression simple, nous avons une seule ligne qui correspond le mieux aux données, mais dans un modèle d'interception aléatoire, nous avons différentes lignes de régression pour différents groupes avec une ligne de régression commune. Comme l'équation le suggère, nous calculerons toujours les coefficients. Nous nous intéressons plus particulièrement au calcul de la variance du terme d'interception aléatoire, c'est-à-dire sigma2u.

Dans un modèle de régression simple, nous avons bêta comme interception. Pour le modèle d'interception aléatoire, bêta0 est toujours le terme d'interception pour la ligne de régression moyenne, mais pour chaque groupe, l'interception est bêta0 + toij. Voir le diagramme ci-dessous, l'interception moyenne est bêta0 alors que pour le groupe rouge c'est bata0+u1. vousj est la différence entre le bêta d'interception0 et des groupes individuels.

modèle d'interception aléatoire
l'image appartient à l'auteur

2 Modèle de coefficient aléatoire

Tout comme nous avons laissé les interceptions varier de manière aléatoire dans un modèle d'interception aléatoire, dans un modèle à coefficients aléatoires, nous permettons à la pente de varier d'un groupe à l'autre. Dans certains cas, l'interception aléatoire seule peut ne pas suffire à expliquer la variabilité entre les groupes. Ainsi, un modèle de pente aléatoire est nécessaire où chaque groupe aura des pentes différentes avec des interceptions différentes. Pourquoi en est-il ainsi ? Il a été observé que les variables explicatives pouvaient avoir des effets différents pour chaque groupe. Supposons que dans notre exemple d'école, si le seuil d'admission est une variable explicative du résultat du test, il pourrait y avoir des écoles où les scores des élèves étaient fortement affectés par les scores seuils d'admission précédents, il pourrait également y avoir certaines écoles, l'effet pourrait être moindre. Ici, nous ne pouvons pas utiliser la même pente pour chaque groupe, mais chaque groupe aura sa pente.

modèle à coefficient aléatoire

L'image appartient à l'auteur

L'équation d'un modèle de pente / coefficient aléatoire est donnée par

En remplaçant les équations, nous obtiendrons

formule | Modélisation multiniveau

Nous avons introduit deux variables aléatoires u1j et toi0j. un pour l'interception et l'autre pour la pente. Si vous ne l'avez pas déjà remarqué, vousij terme est responsable de la variation des pentes. Et c'est la différence entre la pente moyenne de la droite de régression et la pente des groupes individuels. A noter que nous n'avons introduit que deux variables aléatoires beta0 et beta1 mais en réalité, nous devrons calculer six paramètres. bêta0 et bêtacomme d'habitude, sont les parties fixes responsables de la ligne de régression globale tandis que pour la partie aléatoire, nous allons estimer sigma2u0 et sigma2u1 les écarts de toi0j et toi1j et sigmau01-  covariance des pentes et des interceptions. On observe que les pentes et les interceptions sont liées. Lorsque la covariance entre ces deux éléments est positive, les droites de régression apparaîtront divergentes, tandis qu'une covariance négative suggère que les droites convergent et qu'une covariance nulle suggère qu'il n'y a pas de modèle fixe.

Test d'hypothèse Test du rapport de vraisemblance

Les tests d'hypothèses font toujours partie intégrante de l'interprétation de tout modèle. Il est en effet important de savoir si un paramètre est significatif ou non. Le type de test statistique variera en fonction du paramètre observé. Nous pouvons utiliser des tests z et des tests t réguliers pour nos paramètres à effet fixe. Mais le test des effets aléatoires nécessitera un test du rapport de vraisemblance.

Test du rapport de vraisemblance :

L'interprétation des tests de rapport de vraisemblance est relativement plus facile. Supposons que nous ayons affaire à un modèle d'interception aléatoire. Ainsi, pour effectuer un LRT, nous ajusterons le modèle avec et sans interception aléatoire et calculerons la log-vraisemblance de chaque modèle. La formule pour le test du rapport de vraisemblance est donnée par

où le numérateur est la log-vraisemblance des équations avec moins de paramètres (pas de paramètre d'interception aléatoire) et le dénominateur est la log-vraisemblance des équations avec des paramètres plus grands (avec paramètre d'interception aléatoire).

L'hypothèse nulle est que le modèle avec moins de paramètres est le meilleur tandis que l'alternative est en faveur d'un modèle d'interception aléatoire ou d'un modèle avec plus de paramètres. Ou nous pouvons aussi le dire différemment car le nul est sigma2u = 0 ce qui signifie que nous pouvons ignorer le paramètre supplémentaire. Maintenant, avec la statistique de test en main, nous allons la comparer au chi2 distribution où le degré de liberté est le nombre de paramètres supplémentaires (params(b) – params(a)). Dans un cas d'interception aléatoire, il s'agit de 1. divisez ensuite la valeur de p correspondante par 2 comme sigma2u >= 0. Si la valeur de p est inférieure à alpha, nous acceptons l'alternative et rejetons la valeur nulle et si elle est supérieure au seuil de signification, nous ne rejetterons pas l'hypothèse nulle.

Note de fin

Dans cet article, nous avons abordé diverses facettes de la modélisation multiniveaux. La modélisation à plusieurs niveaux est souvent utilisée dans les ensembles de données liés à la recherche où une régression régulière n'est pas suffisante pour expliquer les variances entre les groupes. Il n'y a pas de règles strictes pour mettre en œuvre ces modèles à chaque fois, parfois un modèle de régression régulier peut être suffisant pour obtenir le résultat requis. 

Merci d'avoir lu mon article sur la modélisation multiple. J'espère que tu l'as aimé. Partagez vos opinions dans les commentaires ci-dessous.

Consultez notre blog pour en savoir plus sur notre blog

Ressources: bristol.ac.uk , Coursera

Les médias présentés dans cet article n'appartiennent pas à Analytics Vidhya et sont utilisés à la discrétion de l'auteur. 

Source : https://www.analyticsvidhya.com/blog/2022/01/a-brief-introduction-to-multilevel-modelling/

spot_img

Dernières informations

spot_img