Логотип Зефирнет

Краткое введение в многоуровневое моделирование

Дата:

Эта статья была опубликована в рамках Блогатон по Data Science.

Содержание

  1. Введение
  2. Многоуровневые модели
  3. Преимущества многоуровневых моделей
  4. Когда мы используем многоуровневые модели
  5. Типы многоуровневой модели
  6. Модель случайного перехвата
  7. Модель случайных коэффициентов
  8. Проверка гипотез: проверка отношения правдоподобия
  9. Конечная нота

Введение

Предположим, у вас есть набор данных о заработной плате преподавателей университета, и вас интересует связь заработной платы с многолетним опытом. Как бы вы решили проблему? Линейная регрессия с годами в качестве зависимой переменной и заработной платой в качестве переменной отклика. Это просто, не так ли? Но что, если я скажу вам, что индивидуальные зарплаты факультетов различаются в зависимости от факультета. Преподаватель из Computer Sc может получать больше, чем учитель социологии. Итак, мы видим, что есть влияние кафедры на заработную плату преподавателей. Статистики называют это групповым эффектом или случайным эффектом групп. Здесь факультеты вложены или сгруппированы внутри групповых отделов. А если пойти на уровень дальше и сгруппировать факультеты внутри университетов и сравнить зарплаты преподавателей разных университетов, то результат может быть другим. Таким образом, данные в группе коррелированы, но обычная линейная регрессия предполагает, что данные независимы. Итак, нам нужны модели, которые отражают эти корреляции между наблюдениями. Если мы продолжим использовать обычную регрессионную модель, мы можем не получить хороших выводов из данных.

Многоуровневое моделирование

Многоуровневое моделирование — это статистическая модель, которая используется для моделирования отношений между зависимыми данными и независимыми данными при наличии корреляции между наблюдениями. Эти модели также известны как иерархические модели, модели со смешанными эффектами, модели с вложенными данными или модели со случайными коэффициентами. Здесь отдельные наблюдения вложены в разные группы. Наблюдения внутри каждой группы коррелированы.

Преимущества многоуровневого моделирования

Мы можем очень хорошо использовать обычные модели регрессии в сгруппированных данных, как в примере, который мы привели выше, вводя фиктивные переменные. Но многоуровневый подход имеет ряд преимуществ.

Лучше выводы: Многоуровневая регрессия обеспечивает лучший вывод из сгруппированных данных. Обычная регрессионная модель не учитывает группировку данных, что впоследствии приводит к занижению коэффициентов и завышению значимости коэффициентов.

Меньше параметров: В обычной модели регрессии нам нужны фиктивные переменные для учета групп, но в многоуровневой регрессии нам потребуется меньше параметров для того же.

Групповые эффекты: Часто нас особенно интересуют групповые эффекты, такие как роль школ в определении результатов тестов учащихся. Этого нельзя достичь с помощью обычных регрессий, поэтому мы используем многоуровневые модели.

Когда мы используем многоуровневое моделирование?

Когда отдельные данные собираются из случайной выборки кластеров (школ, районов, больниц) в один момент времени, наблюдения в этих кластерах, скорее всего, будут схожими. Например, учащиеся из разных школ могут показывать разные результаты в общем тесте, в то время как результаты учащихся из одной школы могут иметь некоторое сходство. Здесь школы представляют собой кластеры, а результаты тестов учащихся представляют собой наблюдения, вложенные в школы. Если мы подгоняем обычную регрессию для моделирования взаимосвязи между результатами тестов и некоторой переменной-предиктором x, то мы будем игнорировать влияние переменных уровня школы, скажем, квалификации учителей. Используя простую регрессионную модель, мы не можем оценить, какая вариация вызвана на уровне учащихся и какая на уровне школы.

В некоторых школах может быть лучшая учебная среда, чем в других, или факультеты одной школы лучше, чем в других. Введение случайных переменных для перехватов или коэффициентов с последующей оценкой их дисперсии даст нам лучшее представление о групповых эффектах, и именно здесь в игру вступает многоуровневое моделирование.

Многоуровневое моделирование
изображение принадлежит автору

Многоуровневые модели также полезны в лонгитюдных исследованиях, когда через некоторое время проводятся повторные измерения одного и того же человека. Таким образом, мы можем сказать, что измерения сгруппированы внутри каждого человека. Например, случайным образом была выбрана группа мальчиков, и каждый год в течение следующих пяти лет регистрировался их рост. Мы можем использовать многоуровневые модели для моделирования взаимосвязи между человеком и его ростом.

Что такое уровни:

В приведенных выше примерах ученики, измерения, школы, группы мальчиков являются уровнями многоуровневой структуры. Как правило, переменные, выбранные из большей совокупности, могут быть выровнены. Школы могут быть отобраны из большей совокупности школ, а учащиеся в школе представляют собой случайную выборку из более широкой совокупности учащихся. Наиболее фундаментальными наблюдениями считаются первый уровень и последующие группы как уровень 2, 3 и так далее. Например,

уровень 3: районы, районы, провинции

уровень 2: школы, больницы, частные лица

уровень 1: студенты, факультеты, измерения

Типы многоуровневой модели

В простой регрессионной модели у нас есть член пересечения, предикторная переменная, умноженная на наклон, и остаточный член. Мы предполагаем, что каждое наблюдение независимо от других. Это выглядит примерно так

yi = β0 + β1xi + Аi

Здесь единственным переменным членом является остаточный член eв то время как точка пересечения и наклон фиксированы. Этого в основном достаточно для данных, в которых выполняется основное предположение о том, что каждое наблюдение независимо от других. Но в случае вложенных данных он обобщается для всех групп. У нас есть единая средняя линия для всех групп.

В многоуровневых моделях мы позволим пересечению и коэффициенту варьироваться. Мы не только найдем параметры регрессии, описывающие общие взаимосвязи предикторов и переменных ответа, но мы также сделаем все возможное, чтобы оценить дисперсии коэффициентов, которым разрешено варьироваться между группами на более высоких уровнях. Здесь мы обсудим две многоуровневые модели

1 Модель случайного перехвата

В модели случайного перехвата член перехвата может варьироваться в кластерах. Как следует из названия, мы введем случайную переменную для термина перехвата. Уравнение выглядит примерно так

yij = β0j + β1xij + Аij  ….. экв-1

где β0j =  β0 + тыj  ….. экв-2

Здесь i = отдельные наблюдения j = отдельные кластеры

объединяя оба уравнения, которые мы получаем,

Формула | Многоуровневое моделирование

где тыj ~ N(0,сигмаu2) и еij N (0, сигмаe2)

Теперь давайте разберемся, как это работает. В модели случайного перехвата мы ввели случайную величину uj для учета дисперсии, вызванной кластерами. u— случайная величина, отвечающая за уникальные перехваты для каждой группы. В простой регрессии у нас есть одна линия, которая лучше всего соответствует данным, но в модели случайного перехвата у нас есть разные линии регрессии для разных групп вместе с общей линией регрессии. Как следует из уравнения, мы по-прежнему будем рассчитывать коэффициенты. Нас особенно интересует вычисление дисперсии члена случайного перехвата, т.е. сигма2u.

В простой модели регрессии у нас есть бета как перехват. Для модели случайного перехвата бета0 по-прежнему является точкой пересечения для средней линии регрессии, но для каждой группы точкой пересечения является бета0 + тыj. См. диаграмму ниже, средний перехват - бета.0 а для красной группы это бата0+u1. тыj разница между бета-версией перехвата0 и отдельные группы.

модель случайного перехвата
изображение принадлежит автору

2 Модель случайных коэффициентов

Точно так же, как мы позволили пересечениям случайным образом варьироваться в модели случайных пересечений, в модели со случайными коэффициентами мы позволяем наклону варьироваться между группами. В некоторых случаях одного случайного перехвата может быть недостаточно для объяснения изменчивости между группами. Таким образом, необходима модель случайного наклона, в которой каждая группа будет иметь разные наклоны вместе с разными точками пересечения. Почему это так? Было замечено, что объясняющие переменные могут иметь различный эффект для каждой группы. Давайте предположим, что в нашем примере со школой, если предел приема является объясняющей переменной для результатов теста, то могут быть школы, в которых оценки учащихся сильно зависят от предыдущих результатов порога приема, также могут быть некоторые школы, эффект может быть меньше. Здесь мы не можем использовать один и тот же наклон для каждой группы, вместо этого каждая группа будет иметь свой наклон.

модель случайных коэффициентов

Изображение принадлежит автору

Уравнение для модели со случайным наклоном/коэффициентом задается как

Подставляя уравнения получим

формула | Многоуровневое моделирование

Мы ввели две случайные величины u1j и ты0j. один для перехвата, а другой для наклона. Если ты еще не заметил это тыij термин отвечает за изменение наклонов. И это разница между средним наклоном линии регрессии и наклоном отдельных групп. Обратите внимание, что мы ввели только две случайные величины beta0 и beta1, а на самом деле нам придется вычислять шесть параметров. бета0 и бетакак обычно, это фиксированные части, отвечающие за общую линию регрессии, в то время как для случайной части мы будем оценивать сигму2u0 и сигма2u1 отклонения от тебя0j и ты1j и сигмаu01  ковариация наклонов и пересечений. Замечено, что наклоны и точки пересечения связаны. Когда ковариация между этими двумя положительными, линии регрессии будут казаться расходящимися, в то время как отрицательная ковариация предполагает, что линии сходятся, а нулевая ковариация предполагает отсутствие фиксированного паттерна.

Проверка гипотез Проверка отношения правдоподобия

Проверка гипотез всегда является неотъемлемой частью интерпретации любой модели. Действительно важно знать, является ли какой-либо параметр значимым или нет. Тип статистического теста будет варьироваться в зависимости от наблюдаемого параметра. Мы можем использовать обычные z-тесты и t-тесты для наших фиксированных параметров эффекта. Но тест на случайные эффекты потребует тестирования отношения правдоподобия.

Проверка отношения правдоподобия:

Интерпретировать тестирование отношения правдоподобия относительно проще. Предположим, мы имеем дело со случайной моделью перехвата. Таким образом, для выполнения LRT мы подберем модель со случайным перехватом и без него и рассчитаем логарифмическую вероятность каждой модели. Формула для проверки отношения правдоподобия задается как

где числитель — это логарифмическое правдоподобие уравнений с меньшим количеством параметров (без параметра случайного пересечения), а знаменатель — это логарифмическое правдоподобие уравнений с большим количеством параметров (со случайным параметром пересечения).

Нулевая гипотеза состоит в том, что модель с меньшим количеством параметров является лучшей, в то время как альтернатива отдает предпочтение модели случайного перехвата или модели с большим количеством параметров. Или мы также можем выразить это по-другому, поскольку ноль - это сигма.2u = 0, что означает, что мы можем игнорировать дополнительный параметр. Теперь, имея в руках тестовую статистику, мы сравним ее с ци.2 распределение, где степень свободы — это количество дополнительных параметров (params(b) — params(a)). В случае случайного перехвата это 1. Затем разделите соответствующее значение p на 2 как сигму.2u >= 0. Если p-значение меньше альфа, мы принимаем альтернативу и отклоняем нулевое значение, а если оно выше уровня значимости, мы не отклоняем нулевую гипотезу.

Конечная нота

В этой статье мы обсудили различные аспекты многоуровневого моделирования. Многоуровневое моделирование часто используется в наборах данных, связанных с исследованиями, где обычной регрессии недостаточно для объяснения различий между группами. Не существует жестких и быстрых правил для реализации этих моделей каждый раз, когда иногда обычной регрессионной модели может быть достаточно для достижения требуемого результата. 

Спасибо, что прочитали мою статью о множественном моделировании. Надеюсь, вам понравилось. Поделитесь своим мнением в комментариях ниже.

Посетите наш блог, чтобы узнать больше статьи

Ресурсы: Бристоль.ac.uk , Coursera

Материалы, показанные в этой статье, не принадлежат Analytics Vidhya и используются по усмотрению Автора. 

Источник: https://www.analyticsvidhya.com/blog/2022/01/a-brief-introduction-to-multilevel-modelling/

Spot_img

Последняя разведка

Spot_img

Чат с нами

Всем привет! Могу я чем-нибудь помочь?