Logo Zephyrnet

Giới thiệu ngắn gọn về Mô hình đa cấp

Ngày:

Bài báo này đã được xuất bản như một phần của Blogathon Khoa học Dữ liệu.

Mục lục

  1. Giới thiệu
  2. Mô hình đa cấp
  3. Ưu điểm của mô hình Đa cấp
  4. Khi nào chúng ta sử dụng Mô hình Đa cấp
  5. Các loại mô hình đa cấp
  6. Mô hình đánh chặn ngẫu nhiên
  7. Mô hình hệ số ngẫu nhiên
  8. Kiểm tra giả thuyết: Kiểm tra tỷ lệ khả năng
  9. Ghi chú cuối

Giới thiệu

Giả sử, bạn có một tập dữ liệu về lương giảng viên của một trường đại học và bạn quan tâm đến mối quan hệ của lương với số năm kinh nghiệm. Bạn sẽ giải quyết vấn đề như thế nào? Hồi quy tuyến tính với năm là biến phụ thuộc và tiền lương là biến phản hồi. Thật đơn giản phải không? Nhưng điều gì sẽ xảy ra nếu tôi nói với bạn rằng mức lương cá nhân của các khoa thay đổi theo từng bộ phận tương ứng. Một giáo viên từ Computer Sc có thể được trả nhiều hơn một giáo viên xã hội học. Vì vậy, chúng ta có thể thấy rằng có một tác động của bộ phận đối với tiền lương của giảng viên. Các nhà thống kê gọi đó là hiệu ứng nhóm hay hiệu ứng ngẫu nhiên của các nhóm. Ở đây, các khoa được lồng hoặc nhóm trong các phòng ban của nhóm. Và nếu chúng ta tiến xa hơn và nhóm các khoa trong các trường đại học và so sánh mức lương của các khoa từ các trường đại học khác nhau, kết quả có thể khác. Do đó, dữ liệu trong một nhóm có tương quan với nhau nhưng một hồi quy tuyến tính thông thường giả định dữ liệu là độc lập. Vì vậy, chúng ta cần các mô hình phản ánh những mối tương quan này giữa các quan sát. Nếu chúng ta tiếp tục với mô hình hồi quy thông thường, chúng ta có thể không nhận được suy luận tốt từ dữ liệu.

Mô hình đa cấp

Mô hình đa cấp là một mô hình thống kê được sử dụng để mô hình hóa mối quan hệ giữa dữ liệu phụ thuộc và dữ liệu độc lập khi có mối tương quan giữa các quan sát. Các mô hình này còn được gọi là mô hình phân cấp, mô hình hiệu ứng hỗn hợp, mô hình dữ liệu lồng nhau hoặc mô hình hệ số ngẫu nhiên. Ở đây, các quan sát riêng lẻ được lồng vào bên trong các nhóm khác nhau. Các quan sát trong mỗi nhóm có mối tương quan với nhau.

Ưu điểm của Mô hình Đa cấp

Chúng ta rất có thể sử dụng các mô hình hồi quy thông thường trong dữ liệu được nhóm như ví dụ mà chúng tôi đã đưa ra ở trên bằng cách giới thiệu các biến giả. Nhưng cách tiếp cận đa cấp có một số ưu điểm

Suy luận tốt hơn: Hồi quy đa cấp cung cấp suy luận tốt hơn từ dữ liệu được nhóm. Mô hình hồi quy thông thường không xem xét việc nhóm dữ liệu dẫn đến việc đánh giá thấp các hệ số và phóng đại ý nghĩa của hệ số.

Ít tham số hơn: Với mô hình hồi quy thông thường, chúng ta cần các biến giả để tính cho các nhóm nhưng với hồi quy đa cấp, chúng ta sẽ cần ít tham số hơn cho cùng một.

Hiệu ứng nhóm: Thông thường, chúng tôi đặc biệt quan tâm đến các hiệu ứng nhóm như vai trò của trường học trong việc xác định kết quả kiểm tra của học sinh. Điều này không thể đạt được bằng các hồi quy thông thường, vì vậy chúng tôi sử dụng các mô hình đa cấp.

Khi nào chúng ta sử dụng Mô hình đa cấp?

Khi dữ liệu riêng lẻ được thu thập từ một mẫu ngẫu nhiên của các cụm (trường học, khu vực, bệnh viện) tại một thời điểm thì các quan sát trong các cụm này có nhiều khả năng giống nhau hơn. Ví dụ: học sinh từ các trường khác nhau có thể thực hiện khác nhau trong một bài kiểm tra chung trong khi thành tích của học sinh cùng trường có thể có một số điểm tương đồng. Ở đây, các trường là các cụm và điểm kiểm tra của học sinh là các quan sát được lồng trong các trường. Nếu chúng ta đang điều chỉnh một hồi quy thông thường để mô hình hóa mối quan hệ giữa điểm kiểm tra và một số biến dự báo x thì chúng ta sẽ giảm bớt tác động của các biến cấp trường, giả sử trình độ của giáo viên. Với một mô hình hồi quy đơn giản, không có cách nào chúng ta có thể ước tính được mức độ biến động gây ra ở cấp học sinh và cấp độ trường học.

Một số trường có thể có môi trường học tập tốt hơn một số trường khác hoặc các khoa của một trường này tốt hơn những trường khác. Việc giới thiệu các biến ngẫu nhiên cho các khoảng hoặc hệ số sau đó ước tính phương sai của chúng sẽ giúp chúng ta có được ý tưởng tốt hơn về hiệu ứng nhóm, đây là lúc mô hình đa cấp đi vào hình ảnh.

Mô hình đa cấp
hình ảnh thuộc về tác giả

Các mô hình đa cấp cũng hữu ích trong các nghiên cứu dọc khi các phép đo lặp lại của cùng một cá thể được thực hiện trong một thời gian. Vì vậy, chúng ta có thể nói rằng các phép đo được tập hợp trong mỗi cá nhân. Ví dụ, một nhóm nam sinh được chọn ngẫu nhiên và chiều cao của họ được ghi lại hàng năm trong vòng XNUMX năm tới. Chúng ta có thể sử dụng các mô hình đa cấp để mô hình hóa mối quan hệ giữa con người và chiều cao của họ.

Cấp độ là gì:

Trong các ví dụ trên về học sinh, số đo, trường học, nhóm nam sinh là các cấp của cấu trúc đa cấp. Nói chung, các biến được lấy mẫu từ một tập hợp lớn hơn đủ điều kiện để được san bằng. Trường học có thể được lấy mẫu từ một số lượng lớn các trường học và học sinh tại một trường học là một mẫu ngẫu nhiên từ một số lượng học sinh lớn hơn. Các quan sát cơ bản nhất được coi là cấp một và các nhóm tiếp theo là cấp 2, 3, v.v. Ví dụ,

cấp 3: Vùng, Huyện, Tỉnh

cấp 2: Trường học, Bệnh viện, cá nhân

cấp 1: Sinh viên, Khoa, phép đo

Các loại mô hình đa cấp

Trong một mô hình hồi quy đơn giản, chúng ta có một số hạng chặn, một biến dự báo nhân với độ dốc và một số hạng dư. Chúng tôi giả định rằng mỗi quan sát là độc lập với những quan sát khác. Nó trông giống như thế này

yi = β0 +1xi + vài

Ở đây, số hạng duy nhất có thể thay đổi là số hạng dư etrong khi điểm chặn và độ dốc là cố định. Điều này hầu hết là đủ cho dữ liệu trong đó giả định cơ bản rằng mỗi quan sát là độc lập với những quan sát khác. Nhưng trong trường hợp dữ liệu lồng nhau, nó tổng quát cho tất cả các nhóm. Chúng tôi có một đường trung bình duy nhất cho tất cả các nhóm.

Trong các mô hình đa cấp, chúng tôi sẽ cho phép khả năng đánh chặn và đồng hiệu quả thay đổi. Chúng tôi không chỉ tìm thấy các tham số hồi quy mô tả mối quan hệ tổng thể của các biến dự báo và biến phản ứng mà chúng tôi còn vượt lên trên và xa hơn nữa để ước tính phương sai của các hệ số được phép thay đổi giữa các nhóm ở cấp cao hơn. Ở đây, chúng ta sẽ thảo luận về hai mô hình đa cấp

1 Mô hình đánh chặn ngẫu nhiên

Trong mô hình đánh chặn ngẫu nhiên, thuật ngữ đánh chặn được phép thay đổi trên các cụm. Như tên cho thấy, chúng tôi sẽ giới thiệu một biến ngẫu nhiên cho thuật ngữ chặn. Phương trình trông giống như thế này

yij = β0j +1xij + vàij  … .. eq-1

nơi β0j =  β0 + bạnj  … .. eq-2

Ở đây, i = các quan sát riêng lẻ j = các cụm riêng lẻ

kết hợp cả hai phương trình chúng ta nhận được,

Công thức | Mô hình đa cấp

bạn ở đâuj ~ N (0, sigmau2) và eij N (0, sigmae2)

Bây giờ, chúng ta hãy hiểu cách hoạt động của nó. Trong mô hình đánh chặn ngẫu nhiên, chúng tôi đã giới thiệu một biến ngẫu nhiên uj để tính đến phương sai do các cụm gây ra. ulà biến ngẫu nhiên chịu trách nhiệm về các lần chặn duy nhất cho mỗi nhóm. Trong hồi quy đơn giản, chúng ta có một đường duy nhất phù hợp nhất với dữ liệu nhưng trong mô hình đánh chặn ngẫu nhiên, chúng ta có các đường hồi quy khác nhau cho các nhóm khác nhau cùng với một đường hồi quy chung. Như phương trình gợi ý, chúng tôi vẫn sẽ tính toán các hệ số. Chúng tôi đặc biệt quan tâm đến việc tính toán phương sai của thuật ngữ chặn ngẫu nhiên, tức là sigma2u.

Trong một mô hình hồi quy đơn giản, chúng tôi có phiên bản beta như đánh chặn. Đối với mô hình đánh chặn ngẫu nhiên, beta0 vẫn là thuật ngữ chặn cho đường hồi quy trung bình nhưng đối với mỗi nhóm, điểm chặn là beta0 + bạnj. Xem sơ đồ dưới đây, mức đánh chặn trung bình là beta0 trong khi đối với nhóm màu đỏ thì đó là bata0+u1. bạnj là sự khác biệt giữa phiên bản beta đánh chặn0 và các nhóm cá nhân.

mô hình đánh chặn ngẫu nhiên
hình ảnh thuộc về tác giả

2 Mô hình Hệ số Ngẫu nhiên

Cũng giống như chúng tôi cho phép các mức chặn thay đổi ngẫu nhiên trong mô hình đánh chặn ngẫu nhiên, trong mô hình hệ số ngẫu nhiên, chúng tôi cho phép độ dốc thay đổi giữa các nhóm. Trong một số trường hợp, chỉ đánh chặn ngẫu nhiên có thể không đủ để giải thích sự khác biệt giữa các nhóm. Vì vậy, một mô hình độ dốc ngẫu nhiên là cần thiết, trong đó mỗi nhóm sẽ có độ dốc khác nhau cùng với các điểm chặn khác nhau. Tại sao nó như vậy? Người ta quan sát thấy rằng các biến giải thích có thể có những tác động khác nhau đối với mỗi nhóm. Giả sử trong ví dụ trường học của chúng ta nếu ngưỡng xét tuyển là một biến giải thích cho kết quả bài kiểm tra thì có thể có trường mà điểm số của học sinh bị ảnh hưởng nhiều bởi điểm giới hạn nhập học trước đó, cũng có thể có một số trường, ảnh hưởng có thể ít hơn. Ở đây, chúng ta không thể sử dụng cùng một độ dốc cho mọi nhóm thay vào đó mỗi nhóm sẽ có độ dốc của nó.

mô hình hệ số ngẫu nhiên

Hình ảnh thuộc về tác giả

Phương trình cho mô hình hệ số / độ dốc ngẫu nhiên được đưa ra như

Thay thế các phương trình chúng ta sẽ nhận được

công thức | Mô hình đa cấp

Chúng tôi đã giới thiệu hai biến ngẫu nhiên u1j và bạn0j. một cho điểm chặn và một cho dốc. Nếu bạn chưa nhận thấy điều này, bạnij hạn chịu trách nhiệm cho sự thay đổi của độ dốc. Và nó là sự khác biệt giữa độ dốc trung bình của đường hồi quy và độ dốc của các nhóm riêng lẻ. Lưu ý rằng chúng tôi chỉ giới thiệu hai biến ngẫu nhiên beta0 và beta1 nhưng trên thực tế, chúng tôi sẽ phải tính toán sáu tham số. bản beta0 và betanhư thường lệ, là các phần cố định chịu trách nhiệm cho đường hồi quy tổng thể trong khi đối với phần ngẫu nhiên, chúng tôi sẽ ước tính sigma2u0 và sigma2u1 các phương sai của bạn0j và bạn1j và sigmau01  hiệp phương sai của các độ dốc và các giới hạn. Người ta quan sát thấy rằng các sườn dốc và các điểm giao cắt được liên kết với nhau. Khi hiệp phương sai giữa hai điều này là dương, các đường hồi quy sẽ xuất hiện phân kỳ, trong khi hiệp phương sai âm cho thấy các đường đang hội tụ và hiệp phương sai bằng không sẽ cho thấy không có mẫu cố định.

Kiểm tra giả thuyết Kiểm tra tỷ lệ khả năng

Kiểm tra giả thuyết luôn là một phần không thể thiếu trong việc giải thích bất kỳ mô hình nào. Điều thực sự quan trọng là phải biết liệu bất kỳ tham số nào là quan trọng hay không. Loại kiểm tra thống kê sẽ khác nhau tùy thuộc vào tham số được quan sát. Chúng ta có thể sử dụng các bài kiểm tra z và kiểm tra t thông thường cho các tham số hiệu ứng cố định của chúng tôi. Nhưng kiểm tra các hiệu ứng ngẫu nhiên sẽ yêu cầu kiểm tra tỷ lệ khả năng xảy ra.

Kiểm tra tỷ lệ khả năng:

Việc diễn giải thử nghiệm tỷ lệ khả năng xảy ra tương đối dễ dàng hơn. Giả sử chúng ta đang xử lý một mô hình đánh chặn ngẫu nhiên. Vì vậy, để thực hiện một LRT, chúng tôi sẽ điều chỉnh mô hình có và không có chặn ngẫu nhiên và tính toán khả năng xảy ra của từng mô hình. Công thức để kiểm tra tỷ lệ khả năng được đưa ra như

trong đó tử số là khả năng xảy ra log của các phương trình có ít tham số hơn (không có tham số chặn ngẫu nhiên) và mẫu số là khả năng xảy ra log của các phương trình có tham số lớn hơn (với tham số chặn ngẫu nhiên).

Giả thuyết rỗng là mô hình có ít tham số là tốt nhất trong khi mô hình thay thế có lợi cho mô hình chặn ngẫu nhiên hoặc mô hình có nhiều tham số hơn. Hoặc chúng ta cũng có thể đặt nó theo cách khác vì null là sigma2u = 0 có nghĩa là chúng ta có thể bỏ qua tham số phụ. Bây giờ với thống kê thử nghiệm trong tay, chúng tôi sẽ so sánh nó với chi2 phân phối trong đó bậc tự do là số tham số phụ (params (b) - params (a)). Trong trường hợp đánh chặn ngẫu nhiên, giá trị này là 1. sau đó chia giá trị p tương ứng với 2 là sigma2u > = 0. Nếu giá trị p nhỏ hơn alpha, chúng ta chấp nhận thay thế và bác bỏ giá trị rỗng và nếu nó trên mức ý nghĩa, chúng ta sẽ không bác bỏ giả thuyết rỗng.

Ghi chú cuối

Trong bài viết này, chúng tôi đã thảo luận về các khía cạnh khác nhau của mô hình đa cấp. Mô hình đa cấp thường được sử dụng trong các bộ dữ liệu liên quan đến nghiên cứu, nơi một hồi quy thông thường không đủ để giải thích các phương sai giữa các nhóm. Không có quy tắc cứng và nhanh để thực hiện các mô hình này mỗi khi đôi khi một mô hình hồi quy thông thường có thể đủ để đạt được kết quả cần thiết. 

Cảm ơn bạn đã đọc bài viết của tôi về nhiều mô hình. Hy vọng bạn thích nó. Chia sẻ quan điểm của bạn trong phần bình luận bên dưới.

Kiểm tra blog của chúng tôi để biết thêm bài viết

Tài nguyên: bristol.ac.uk , Coursera

Phương tiện hiển thị trong bài viết này không thuộc sở hữu của Analytics Vidhya và được sử dụng theo quyết định riêng của Tác giả. 

Nguồn: https://www.analyticsvidhya.com/blog/2022/01/a-brief-introduction-to-multilevel-modelling/

tại chỗ_img

Tin tức mới nhất

tại chỗ_img