제퍼넷 로고

최대 가능성 추정 - 종합 가이드

시간

이 기사는 데이터 과학 Blogathon

개요

이 가이드의 목적은 아마도 통계에서 가장 중요한 개념인 최대 가능성 추정의 개념을 탐구하는 것입니다. 데이터 과학 이면의 수학에 익숙해지는 데 관심이 있다면 최대 가능성 추정을 놓칠 수 없습니다. 대부분의 통계학자에게 이것은 통계가 그 힘을 많이 잃을 수 있는 분야의 필수 불가결한 것과 같습니다.

최대 가능성 추정이란 무엇입니까

최대 가능성 추정은 무엇입니까? 이 질문에 완전히 답하기 전에 많은 개념을 이해해야 합니다. 현재로서는 직관적으로 다음과 같이 생각할 수 있습니다.

분포를 특성화하는 다양한 매개변수에 대한 추정치를 찾기 위해 데이터를 사용하는 프로세스입니다.

더 잘 이해하기 위해 통계학자의 입장으로 들어가 보겠습니다. 통계학자인 우리의 주요 업무는 제공된 데이터를 분석하는 것입니다. 당연히 가장 먼저 해야 할 일은 데이터를 얻은 분포를 식별하는 것입니다. 다음으로 데이터를 사용하여 분포의 매개변수를 찾아야 합니다. 모수는 분포의 수치적 특성입니다. 정규 분포에는 평균(μ)과 분산(σ)이 있습니다.2) 매개변수로. 이항 분포는 시행 횟수(n)와 성공 확률(p)을 매개변수로 사용합니다. 감마 분포는 모양(k)과 척도(θ)를 매개변수로 가집니다. 지수 분포는 매개변수로 역평균(λ)을 갖습니다. 목록은 계속됩니다. 이러한 매개변수 또는 수치적 특성은 분포의 크기, 모양, 퍼짐 및 기타 속성을 이해하는 데 중요합니다. 우리가 가지고 있는 데이터는 대부분 무작위로 생성되기 때문에 분포를 특징짓는 매개변수의 실제 값을 모르는 경우가 많습니다.

그때가 바로 추정기가 개입할 때입니다. 추정기는 관심 있는 매개변수의 대략적인 값을 제공하는 데이터의 함수와 같습니다. 우리 대부분은 몇 가지 일반적인 추정기에 익숙할 것입니다. 예를 들어, 가장 자주 사용되는 추정기인 표본 평균 추정기가 있습니다. 이것은 우리 관찰의 평균을 취하여 계산되며 분포의 평균을 나타내는 매개변수를 추정하려고 할 때 매우 편리합니다(예: 정규 분포의 경우 매개변수 µ). 또 다른 일반적인 추정기는 우리 관찰의 분산으로 계산되고 분포의 분산을 나타내는 모수(예: 모수 σ2 정규 분포의 경우). 매개변수가 나타내는 수치적 특성을 기반으로 매개변수에 대한 추정기를 쉽게 구성할 수 있다고 생각하고 싶을 수 있습니다. 예를 들어, 모수가 분포의 평균일 때마다 표본 평균 추정기를 사용하십시오. 또는 분포 모드를 추정하려는 경우 샘플 모드 추정기를 사용하십시오. 이들은 종종 자연 추정량이라고 합니다. 그러나 이 접근 방식에는 두 가지 문제가 있습니다.

1) 상황이 항상 그렇게 간단하지는 않습니다. 때로는 일반적인 수치적 특성과 간단한 일대일 대응 관계가 없는 매개변수 추정과 관련된 문제가 발생할 수 있습니다. 예를 들어 다음과 같은 분포를 제공합니다.

예시 배포 | 최대 가능성 추정

위의 방정식은 scale=1인 Pareto 분포의 확률 밀도 함수를 보여줍니다. 분포의 수치적 특성은 모수의 범위에 따라 달라지기 때문에 단순 추정기로 분포의 모수 θ를 추정하는 것은 쉽지 않다. 예를 들어, 위 분포의 평균은 다음과 같이 표현됩니다.

평균 | 최대 가능성 추정

이것은 무한히 가능한 정교한 통계 분포에서 선택한 하나의 예일 뿐입니다. (나중에 Maximum Likelihood Estimation을 사용하여 위 분포의 매개변수 θ에 대한 적절한 추정치를 찾는 방법을 볼 것입니다.)

2) 단순하다고 해도 자연추정자가 최선일 것이라는 보장은 없다. 때로는 다른 추정자가 데이터를 기반으로 더 나은 추정치를 제공합니다. 8에서th 이 기사의 섹션에서는 실수 집합에 대한 MLE를 계산하고 그 정확도를 확인합니다.

이 기사에서는 최대 가능도 추정기에 초점을 맞출 것입니다. 이 추정은 최대 가능도 추정기 또는 MLE라고 하는 추정기의 전체 클래스를 제공하는 추정 프로세스입니다. MLE는 종종 구성할 수 있는 가장 강력한 추정기 클래스로 간주됩니다. 다음과 같은 몇 가지 질문이 있을 수 있습니다. MLE는 어떻게 생겼습니까? 어떻게 찾을 수 있습니까? 그들은 정말 좋은가?

MLE의 마법과 신비로운 영역으로의 여행을 시작해 봅시다.

사전 요구 사항 :

1) 확률: 확률 변수, 평균, 분산 및 확률 분포에 대한 기본 아이디어. 이러한 아이디어에 익숙하지 않은 경우 '임의 변수 이해'에 대한 내 기사 중 하나를 읽을 수 있습니다. 여기에서 지금 확인해 보세요..

2) 수학: 미적분 및 선형 대수학의 예비 지식; 편도함수를 사용하여 간단한 볼록 최적화 문제를 해결하는 능력; 그라디언트 계산.

3) 열정: 마지막으로, 열정 없이 무언가에 대해 읽는 것은 배우지 않고 아는 것과 같습니다. 진정한 학습은 가르치는 주제와 개념에 대한 열정이 있을 때 옵니다.

내용의 표

1) 통계 모델링의 기초

2) 총 변동 거리

3) 쿨백-라이블러 발산

4) 최대 우도 추정기 도출

5) 우도함수의 이해와 계산

6) XNUMX차원 매개변수에 대한 최대 가능성 추정기 계산

7) 다차원 매개변수에 대한 최대 가능성 추정기 계산

8) 파레토 문제의 신비화하기

최대 가능성 추정을 위한 통계 모델링의 기초

통계 모델링은 우리가 직면한 문제에 대한 단순화된 모델을 만드는 프로세스입니다. 우리에게 그것은 우리가 진실이나 현실을 포착하기 위해(즉, 그 수치적 특성을 이해하기 위해) 관찰 가능한 데이터를 사용하는 것입니다. 물론 완전한 진실을 포착하거나 이해하는 것은 불가능합니다. 그래서 최대한 현실을 파악하려고 합니다.

일반적으로 무작위 실험의 통계 모델은 다음 쌍입니다.

무작위 실험 | 최대 가능성 추정

새로운 변수가 많이 있습니다! 하나씩 이해해 봅시다.

1) E는 실험의 표본 공간을 나타냅니다. 실험이란 우리가 수집한 데이터, 즉 관찰 가능한 데이터를 의미합니다. 따라서 E는 데이터가 취할 수 있는 값의 범위입니다(할당된 분포를 기반으로 함).

2) ℙθ E에 대한 확률 측정 계열을 나타냅니다. 즉, 데이터에 할당한 확률 분포(관측값 기반)를 나타냅니다.

3) θ는 분포 ℙ를 특징짓는 미지의 매개변수 집합을 나타냅니다.θ. 우리가 추정하고자 하는 모든 수치적 특징은 θ로 표현됩니다. 지금은 θ를 추정하려는 단일 매개변수로 생각하는 것으로 충분합니다. 나중에 다차원 매개변수를 처리하는 방법을 살펴보겠습니다.

4) Θ는 매개변수 공간, 즉 매개변수 θ가 취할 수 있는 모든 가능한 값의 범위 또는 집합을 나타냅니다.

2가지 예를 들어보겠습니다.

A) 베르누이 분포의 경우: X가 베르누이 확률 변수라면 X는 2과 0의 두 가지 가능한 값만 취할 수 있다는 것을 알고 있습니다. 따라서 표본 공간 E는 집합 {1, 0}입니다. 베르누이 확률 분포는 Ber(p)로 표시되며, 여기서 p는 평균 또는 성공 확률을 나타내는 베르누이 매개변수입니다. 확률 측정이므로 p는 항상 1과 0 사이입니다. 따라서 Θ = [1, 0]입니다. 이 모든 것을 종합하면 베르누이 분포에 대한 다음 통계 모델을 얻습니다.

베르누이 유통 | 최대 가능성 추정

B) 지수 분포의 경우: X가 지수 확률 변수인 경우 X는 양의 실수 값을 취할 수 있음을 알고 있습니다. 따라서 표본 공간 E는 [0, ∞)입니다. 지수 확률 분포는 Exp(λ)로 표시됩니다. 여기서 λ는 지수 매개변수로 비율(여기서는 역평균)을 나타냅니다. X는 항상 양수이므로 기대값은 항상 양수이므로 역평균 또는 λ는 양수입니다. 따라서 Θ = (0, ∞)입니다. 이 모든 것을 종합하면 지수 분포에 대한 다음 통계 모델을 얻을 수 있습니다.

지수 분포

여러분 모두가 우리 데이터에 대한 공식 통계 모델을 만드는 방법을 제대로 이해하기를 바랍니다. 이 아이디어의 대부분은 공식적인 정의를 소개하고 특정 예를 살펴볼 때만 사용됩니다. MLE를 구축하는 과정에 익숙해지면 이 모든 과정을 거칠 필요가 없습니다.

표기법에 대한 참고 사항: 일반적으로 추정기에 대한 표기법은 우리가 추정하려는 매개변수에 대한 모자입니다. 즉, θ가 추정하려는 매개변수인 경우 θ에 대한 추정기는 θ-hat으로 표시됩니다. 우리는 가이드 전체에서 추정기와 추정(추정자가 제공하는 값)이라는 용어를 같은 의미로 사용할 것입니다.

다음 섹션으로 진행하기 전에 이 문서 전체에서 식별 가능성이라는 중요한 가정을 논의하는 것이 중요합니다.

식별 가능성은 매개변수의 다른 값(모수 공간 Θ에서)이 다른 확률 분포를 생성해야 함을 의미합니다. 즉, 매개변수의 두 가지 다른 값(θ & θ')에 대해 두 개의 다른 분포(ℙ)가 있어야 합니다. θ & ℙ θ'). 그건,

확률

마찬가지로

표기법

최대 가능성 추정을 위한 총 변동 거리

여기에서 우리는 두 확률 분포 사이의 거리를 계산하는 아이디어를 탐구할 것입니다. 지수 분포 및 균일 분포와 같이 서로 다른 계열의 두 분포 또는 같은 계열의 두 분포가 있을 수 있지만 Ber(0.2) 및 Ber(0.8)과 같이 매개변수가 다릅니다. 거리의 개념은 통계 및 기계 학습에서 일반적으로 사용됩니다. 데이터 점 사이의 거리, 초평면에서 점까지의 거리, 두 평면 사이의 거리 등을 찾습니다.

두 확률 분포 사이의 거리를 어떻게 계산할 수 있습니까? 통계학자가 가장 일반적으로 사용하는 메트릭 중 하나는 전체 변동(TV) 거리로, 이는 표본 공간 E의 하위 집합에 대한 두 확률 분포 간의 최악의 편차를 측정합니다.

수학적으로 우리는
두 분포 ℙ와 ℚ 사이의 총 변동 거리를 다음과 같이 정의합니다.
다음과 같습니다 :

총 변동 거리 | 최대 가능성 추정

직관적으로 두 분포 ℙ 및 ℚ 간의 총 변동 거리는 해당 분포가 정의된 표본 공간에서 하위 집합에 대해 계산된 확률의 최대 차이를 나타냅니다. 더 잘 이해하기 위해 확률 변수 X와 Y를 각각 ℙ와 ℚ에 할당합시다. E의 부분집합인 모든 A에 대해 ℙ(A)와 ℚ(A)를 찾았습니다. 이는 X와 Y가 A에서 값을 취할 확률을 나타냅니다. 모든 A와 그들을 비교하십시오. 최대 절대 차이는 총 변동 거리입니다. 예를 들어 보겠습니다.

확률 질량 함수가 다음과 같은 경우 ℙ와 ℚ 사이의 총 변동 거리를 계산합니다.

확률 질량 분포

ℙ, ℚ에 해당하는 확률변수의 관측값은 1과 2에 대해서만 정의되므로 표본공간은 E = {1, 2}이다. 가능한 하위 집합은 무엇입니까? 가능한 하위 집합은 {3}, {1} 및 {2, 1}입니다. (우리는 항상 null 집합을 무시할 수 있습니다). 가능한 모든 부분 집합 A에 대해 ℙ(A)와 ℚ(A)의 절대 차이를 계산해 보겠습니다. 

ℙ(A)와 ℚ(A)의 절대차

따라서 다음과 같이 TV 거리를 계산할 수 있습니다.

TV 거리 계산

그게 다야 이제 Exp(1)과 Exp(2) 분포 사이의 TV 거리를 계산하라는 요청을 받았다고 가정합니다. 위의 방법을 사용하여 그들 사이의 TV 거리를 찾을 수 있습니까? 확실히! 지수 분포는 E = [0, ∞)입니다. E의 부분 집합은 무한합니다. 각 부분 집합에 대해 ℙ(A) 및 ℚ(A)를 찾을 수 없습니다. 이러한 상황을 처리하기 위해 ℙ와 ℚ가 이산 분포인지 연속 분포인지에 따라 다르게 정의되는 TV 거리 계산을 위한 더 간단한 분석 공식이 있습니다.

A) 개별 케이스의 경우,

ℙ 및 ℚ가 확률 질량 함수 p(x) 및 q(x) 및 표본 공간 E를 갖는 이산 분포인 경우 다음 방정식을 사용하여 이들 사이의 TV 거리를 계산할 수 있습니다.

디스크리트 케이스 | 최대 가능성 추정

위의 공식을 사용하여 ℙ=Ber(α)와 ℚ=Ber(β) 사이의 TV 거리를 계산해 보겠습니다. 계산은 다음과 같습니다.

E = {0,1}입니다. 베르누이 확률 변수를 다루고 있기 때문입니다.

베르누이 분포의 TV 거리

바로 가기 공식을 사용하여 다음을 얻습니다.

지름길 공식 | 최대 가능성 추정

그게 더 깔끔해! 이제 계속되는 경우에 대해 이야기해 보겠습니다.

B) 연속적인 경우,

ℙ 및 ℚ가 확률 밀도 함수 p(x) 및 q(x) 및 표본 공간 E를 갖는 연속 분포인 경우 다음 방정식을 사용하여 이들 사이의 TV 거리를 계산할 수 있습니다.

연속 케이스 | 최대 가능성 추정

위의 공식을 사용하여 ℙ=Exp(1)와 ℚ=Unif[0,1](0과 1 사이의 균일 분포) 사이의 TV 거리를 계산해 보겠습니다. 계산은 다음과 같습니다.

균일 분포를 위한 TV 거리

위의 표시기 함수 𝕀를 사용했는데, 중괄호 안의 조건이 충족되면 값 1을, 그렇지 않으면 0을 취합니다. 지표 함수를 사용하지 않고 확률 밀도 함수를 다음과 같이 설명할 수도 있습니다.

PDF | 최대 가능성 추정

표시 기능은 계산을 더 깔끔하게 보이게 하고 전체 실제 라인을 확률 분포의 표본 공간으로 취급할 수 있게 합니다.

바로 가기 공식을 사용하여 다음을 얻습니다.

지름길 공식을 사용하여 | 최대 가능성 추정

따라서 필요한 값을 얻었습니다. (해석 방정식 없이 이 계산을 수행하는 것은 상상조차 불가능해 보입니다).

이제 Total Variation Distance의 몇 가지 수학적 속성을 볼 것입니다.

1) 대칭:

대칭

2) 명확성:

확실성 | 최대 가능성 추정

3) 범위 :

범위 | 최대 가능성 추정

4) 삼각형 부등식:

삼각형 부등식 | 최대 가능성 추정

이것으로 TV 거리에 대한 논의가 거의 끝났습니다. 이 우회의 이유에 대해 궁금해 할 것입니다. 우리는 MLE와 논의를 시작했고 TV 거리에 대한 이야기를 계속했습니다. 그들 사이의 연결은 무엇입니까? 그들은 서로 관련이 있습니까? 글쎄요, 기술적으로 아닙니다. MLE는 TV 거리를 기반으로 하는 것이 아니라 Kullback-Leibler divergence라고 하는 것을 기반으로 합니다. 이에 대해서는 다음 섹션에서 살펴보겠습니다. 그러나 TV 거리에 대한 이해는 MLE의 개념을 이해하는 데 여전히 중요합니다.

이제 이 가이드의 가장 중요하고 까다로운 부분입니다. TV 거리를 기반으로 추정기를 구성해 보겠습니다. 우리 어떻게 할까?

우리는 앞서 논의한 TV 거리의 속성 중 하나를 사용할 것입니다. 이 속성은 두 분포가 같을 때 TV 거리가 가까워지는 값을 알려줍니다. 당신은 그것을 올바르게 추측했습니다. 그것은 확실성입니다. 다음 두 분포(동일한 계열이지만 매개변수가 다름)를 고려합니다.

θ 그리고 ℙθ*여기서 θ는 추정하려는 매개변수이고 θ*는 매개변수 θ의 실제 값이고 ℙ는 관측 가능한 데이터의 확률 분포입니다. 확실성에서 우리는,

p에서 ~p까지

(위의 방정식이 식별 가능성을 어떻게 사용했는지 주목하십시오). TV 거리의 최소값이 0이라는 것도 배웠기 때문에 다음과 같이 말할 수도 있습니다.

최소 거리 | 최대 가능성 추정

그래픽으로 다음과 같이 나타낼 수 있습니다.

그래픽 표현 | 최대 가능성 추정

작성자 별 이미지

(파란색 곡선은 범위가 0과 1 사이이고 θ*에서 최소값 = 0에 도달하는 모든 함수일 수 있습니다.) TV(ℙ) 함수를 계산하는 것은 불가능합니다.θ, ℙθ*) 실제 매개변수 값 θ*가 없는 경우. 만약 우리가 TV 거리를 추정할 수 있고 우리의 추정기가 ℙθ 그리고 ℙθ*?!

추정에서 우리의 목표는 θ-hat이 실제 매개변수 θ*에 가깝도록 매개변수 θ에 대한 추정기 θ-hat을 찾는 것입니다. 분포 ℙ 사이의 거리를 최소화하는 관점에서 볼 수 있습니다.θ 그리고 ℙθ*. 그리고 그 때 TV 거리가 그림에 나타납니다. θ = θ-hat일 때 추정기 θ-hat을 원합니다. 예상 θ와 θ*에서 확률 측정 사이의 TV 거리는 최소화됩니다. 즉, θ =θ-hat은 ℙ 사이의 추정된 TV 거리의 최소값이어야 합니다.θ 그리고 ℙθ*. 수학적으로 θ-hat을 다음과 같이 설명할 수 있습니다.

아르그민

그래픽,

그래픽으로
작성자 별 이미지

우리는 파란색 곡선을 추정할 수 있기를 원합니다(TV(ℙθ, ℙθ*)) 빨간색 곡선(TV(ℙθ, ℙθ*)-모자). 빨간색 곡선을 최소화하는 θ의 값은 파란색 곡선을 최소화하는 θ의 값, 즉 θ*에 가까워야 하는 θ-hat이 됩니다.

이것이 MLE의 기본 아이디어입니다. 우리는 나중에 이 아이디어를 다른 곳에서 사용하고 최대 가능성 추정기를 유도할 것입니다.

그래서 우리는 TV(ℙθ, ℙθ*)-모자, 미적분 도구를 사용하여 최소화하고 추정기를 얻을 수 있습니다. 문제가 정렬되었습니다. 오른쪽? 아니요! 또 다른 문제가 있습니다. TV를 찾는 방법(ℙθ, ℙθ*)-모자? 그리고 그것은 힘든 일입니다. ℙ 사이의 TV 거리를 추정할 수 있는 쉬운 방법은 없습니다.θ 그리고 ℙθ*. 그리고 그것이 θ-hat을 찾기 위해 TV 거리를 추정하는 이 모든 아이디어가 실패한 이유입니다. 지금 무엇을 할 수 있습니까?

아마도 TV 거리와 유사하고 명확성을 따르는 또 다른 함수, 가장 중요하게 추정할 수 있는 함수를 찾을 수 있습니다. 그리고 그것은 우리를 다음 섹션인 Kullback-Leibler Divergence로 이끕니다.

Kullback-Leibler 발산

TV 거리와 같이 상대 엔트로피라고도 하는 KL 발산은 ℙ 및 ℚ가 이산 분포인지 연속 분포인지에 따라 다르게 정의됩니다.

A) 개별 케이스의 경우,

ℙ 및 ℚ가 확률 질량 함수 p(x) 및 q(x)와 표본 공간 E를 갖는 이산 분포인 경우 다음 방정식을 사용하여 이들 사이의 KL 발산을 계산할 수 있습니다.

이산 케이스에 대한 KL 발산 | 최대 가능성 추정

방정식은 확실히 TV 거리에 대한 방정식보다 더 복잡해 보이지만 추정하기에 더 적합합니다. KL 발산의 속성에 대해 이야기할 때 이 섹션의 뒷부분에서 이를 볼 것입니다.

위의 공식을 사용하여 ℙ=Ber(α)와 ℚ=Ber(β) 사이의 KL 발산을 계산해 보겠습니다. 계산은 다음과 같습니다.

베르누이를 위한 KL | 최대 가능성 추정

공식을 사용하여 다음을 얻습니다.

방정식 | 최대 가능성 추정

그게 다야 계산이 더 어렵지만 나중에 그 유용성을 보게 될 것입니다.

B) 연속적인 경우,

ℙ 및 ℚ가 확률 밀도 함수 p(x) 및 q(x)와 표본 공간 E를 갖는 연속 분포인 경우 다음 방정식을 사용하여 이들 사이의 KL 발산을 계산할 수 있습니다.

연속 KL | 최대 가능성 추정

위의 공식을 사용하여 ℙ=Exp(α)와 ℚ=Exp(β) 사이의 KL 발산을 계산해 보겠습니다. 계산은 다음과 같습니다.

지수의 경우 KL | 최대 가능성 추정

지수 분포를 다루기 때문에 표본 공간 E는 [0, ∞)입니다. 공식을 사용하여 다음을 얻습니다.

최종 공식 | 최대 가능성 추정

걱정하지 마십시오. 위의 적분을 풀기 위해 부품별 긴 적분을 하지 않을 것입니다. Wolfram이나 적분 계산기를 사용하여 풀면 다음과 같은 결과가 나옵니다.

적분 결과 | 최대 가능성 추정

그리고 우리는 끝났습니다. 이것이 두 분포 간의 KL 발산을 계산하는 방법입니다. 더 연습하고 싶다면 ℙ=N(α, 1)과 ℚ=N(β, 1)(다른 평균과 같은 분산을 갖는 정규 분포) 사이의 KL 발산을 계산해 보십시오. 댓글 섹션에서 답변을 알려주세요.

이제 우리는 KL 발산의 속성에 대해 논의할 것입니다. KL 발산은 거리가 아니라 발산이기 때문에 이러한 속성은 TV 거리와 다를 것입니다. 문구에 주의하세요. 대칭 또는 삼각 부등식과 같은 속성이 유지될 것으로 기대하지 않을 수 있지만 추정기를 구성할 수 있도록 명확성이 유지될 것으로 기대합니다. 또한 다음 섹션에서는 연속 분포에 대해 KL 발산의 정의만 사용할 것입니다. 이산 분포의 경우 합계를 적분으로 바꾸면 절차가 동일하게 유지됩니다. 다음은 KL 다이버전스의 속성입니다.

1) 비대칭(일반적으로):

비대칭 | 최대 가능성 추정

2) 명확성:

Kl 확실성 | 최대 가능성 추정

3) 범위 :

KL 레인지

(예, KL 발산은 확률이나 확률의 차이를 나타내지 않기 때문에 XNUMX보다 클 수 있습니다. KL 발산은 또한 특정 조건에서 두 균일 분포 사이의 KL 발산과 같은 일부 매우 일반적인 분포에 대해 무한대로 진행됩니다.)

4) 삼각형 부등식 없음(일반적으로):

Kl 트레인 부등식 없음 | 최대 가능성 추정

5) 추정 가능:

추정 가능한 KL | 최대 가능성 추정

기대의 속성을 상기하십시오. X가 확률 밀도 함수 f(x)와 표본 공간 E를 갖는 확률 변수인 경우

PDF | 최대 가능성 추정

x를 x의 함수, 예를 들어 g(x)로 바꾸면 다음을 얻습니다.

X를 대체

우리는 KL 발산에 대한 표현에서 이것을 사용했습니다. 확률 밀도 함수는 p(x)이고 g(x)는 log(p(x)/q(x))입니다. 또한 p(x)에서 기대치를 계산하고 있음을 보여주기 위해 첨자 x~ℙ를 넣었습니다. 그래서 우리는,

다음 방정식

이것이 4절에서 KL 발산을 추정할 수 있게 하는 방법을 볼 것입니다. 이제 2절 끝에서 논의된 아이디어를 사용하여 확률 분포 ℙ의 매개변수 θ에 대한 추정량 θ-hat을 찾는 문제를 해결해 보겠습니다.θ:

다음 두 분포(동일한 계열이지만 매개변수가 다름)를 고려합니다.

θ 그리고 ℙθ*여기서 θ는 추정하려는 매개변수이고 θ*는 매개변수 θ의 실제 값이고 ℙ는 관측 가능한 데이터의 확률 분포입니다.

확실성에서 우리는,

정의에서 | 최대 가능성 추정

(위의 방정식이 식별 가능성을 어떻게 사용했는지 주목하십시오). KL 발산의 최소값이 0이라는 것도 배웠으므로 다음과 같이 말할 수 있습니다.

최소 KL 다이버전스 | 최대 가능성 추정

그래픽으로 다음과 같이 나타낼 수 있습니다.

그래프 KL 발산 | 최대 가능성 추정
작성자 별 이미지

(파란색 곡선은 범위가 0에서 무한대이고 θ*에서 최소값 = 0에 도달하는 모든 함수일 수 있습니다.) 함수 KL(ℙθ* || ℙθ) 실제 매개변수 값 θ*가 없는 경우. 그래서, 우리는 그것을 추정하고 우리의 추정기 θ-hat을 ℙθ* 그리고 ℙθ.

수학적으로 

수학적으로

그리고 그 추정기는 정확히 최대 우도 추정기입니다. 우리는 다음 섹션에서 위의 표현을 단순화하고 그 용어 뒤에 있는 추론을 이해할 것입니다.

그래픽,

그래픽으로

작성자 별 이미지

파란색 곡선(KL(ℙ)을 추정할 수 있기를 원합니다.θ* || ℙθ)) 빨간색 곡선(KL(ℙθ* || ℙθ)-모자). 빨간색 곡선을 최소화하는 θ 값은 파란색 곡선을 최소화하는 θ 값, 즉 θ*에 가까워야 하는 θ-hat이 됩니다. 그리고 가장 좋은 점은 TV 거리와 달리 KL 발산을 추정할 수 있고 최소값을 θ에 대한 추정기로 사용할 수 있다는 것입니다.

이것이 우리가 MLE를 얻는 방법입니다.

최대 가능성 추정을 위한 추정기 도출

이전 섹션에서 MLE θ-hat이 다음과 같이 계산됨을 얻었습니다.

MLE
식 1

우리는 분포 ℙ를 고려했습니다.θ 그리고 ℙθ*여기서 θ는 추정하려는 매개변수이고 θ*는 매개변수 θ의 실제 값이고 ℙ는 관측 가능한 데이터의 확률 분포입니다. 확률 분포 함수(분포의 특성에 따라 밀도 또는 질량이 될 수 있음)를 p로 설정합니다.θ(x) 및 pθ*(NS).

(두 분포가 같은 ℙ군에 속하기 때문에 분포 함수를 나타내기 위해 동일한 문자 p를 사용했음을 주목하십시오. 또한 매개변수는 분포 함수를 계산하는 매개변수를 구별하기 위해 아래 첨자를 사용했습니다.)

우리는 또한 KL 다이버전스를 기대값으로 표현하는 과정을 보여주었습니다:

KL 다이버전스 | 최대 가능성 추정

여기서 c = Ex~θ*[로그(pθ*(x))]는 θ와 무관하므로 상수로 취급됩니다. (θ*는 상수값). θ에 대한 KL 발산을 최소화하기를 원하기 때문에 이 양이 전혀 필요하지 않습니다.

그래서 우리는 이렇게 말할 수 있습니다.

KL 모자
식 2

이것이 우리에게 어떻게 유용합니까? 큰 수의 법칙이 우리에게 주는 것을 기억하십시오. 표본 크기(관측 수)가 커질수록 관측치의 표본 평균은 기본 분포의 실제 평균 또는 기대치로 수렴됩니다. 즉, 만약 Y1, 그리고2, ..., 예n 독립적이고 동일하게 분포된 확률 변수인 경우

n 확률 변수

Y를 대체할 수 있습니다.i 임의의 변수의 함수로 log(pθ(NS)). 그래서, 우리는 얻는다, 

1 / N

따라서 데이터를 사용하여 1/n*sum(log(pθ(x)) E에 대한 추정기로 사용x~θ*[로그(pθ(NS))]

따라서 우리는, 

추정기 | 최대 가능성 추정

이를 방정식 2에 대입하면 다음을 얻습니다.

방정식 2

마지막으로 KL 발산에 대한 추정치를 얻었습니다. 최대 우도 추정기를 얻기 위해 방정식 1에서 이것을 대체할 수 있습니다.

MLE

(상수를 추가하면 함수를 위아래로만 이동할 수 있으며 함수 최소화에는 영향을 미치지 않습니다.)

(f(x)의 음수 최소값을 찾는 것은 f(x)의 최대값을 찾는 것과 같습니다.)

최대값 | 최대 가능성 추정

(상수에 의한 함수의 곱셈은 최대화에 영향을 미치지 않습니다)

아르그맥스

(log(x)는 증가 함수이고 g(f(x))의 최대화 함수는 g가 증가 함수인 경우 f(x)의 최대화 함수입니다.

따라서 최대 우도 추정기 θMLE-hat(표기법 변경)은 수학적으로 다음과 같이 정의됩니다.

최대

П(피θ(xi))를 우도 함수라고 합니다. 따라서 MLE는 우도 함수의 최대화인 추정량입니다. 따라서 최대 가능성 추정기라고 합니다. 다음 섹션에서 우도 함수를 더 자세히 이해할 것입니다.

최대 가능성 추정 함수의 이해 및 계산

우도 함수는 다음과 같이 정의됩니다.

A) 개별 케이스의 경우: 만약 X1, X2, …, NSn 통계 모델(E, {ℙθ}θΘ), 여기서 E는 이산 표본 공간이고 우도 함수는 다음과 같이 정의됩니다.

가능성 함수 | 최대 가능성 추정

또한, 만약 X1, X2, …, NSn 독립적이며,

자세한

확률 질량 함수의 정의에 따르면 X1, X2, …, NSn 확률 질량 함수 pθ(x) 그럼, ℙθ[Xi=xi] = 피θ(xi). 따라서 다음이 있습니다.

PMF | 최대 가능성 추정

B) 연속적인 경우: 이전과 동일합니다. 확률 질량 함수를 확률 밀도 함수로 교체하기만 하면 됩니다. 만약 X1, X2, …, NSn 통계 모델(E, {ℙθ}θΘ), 여기서 E는 연속 표본 공간인 경우 우도 함수는 다음과 같이 정의됩니다.

연속적인

어디, 피θ(xi)는 X가 다음과 같은 분포의 확률 밀도 함수입니다.1, X2, …, NSn 따르다.

우도 함수를 더 잘 이해하기 위해 몇 가지 예를 들어보겠습니다.

I) 베르누이 분포:

모델:

BD | 최대 가능성 추정

매개변수: θ=p

확률 질량 함수:

PMF | 최대 가능성 추정

가능성 함수:

가능성 함수

II) 포아송 분포:

모델:

포아송 분포

(표본 공간은 모든 정수의 집합입니다)

매개변수: θ=λ

확률 질량 함수:

PMF

가능성 함수:

있을 수 있는 일

III) 지수 분포:

모델:

ED | 최대 가능성 추정

매개변수: θ=λ

확률 밀도 함수:

ED의 PDF

가능성 함수:

가능성 함수

IV) 균일 분포:

확률 밀도 함수는 추정할 매개변수의 값에 따라 달라지는 특정 범위에서만 정의되기 때문에 이것은 또한 매우 흥미로울 것입니다.

모델:

제복

매개변수: θ=α

확률 밀도 함수:

PDF

(x가 매개변수 α와 무관하므로 x가 0보다 커야 하는 부분은 무시할 수 있습니다.)

가능성 함수:

있을 수 있는 일

까다로워 보입니다. 지표 함수의 곱을 어떻게 받아들여야 할까요? 표시기 함수는 2(중괄호의 조건이 충족되는 경우)과 1(중괄호의 조건이 충족되지 않은 경우)의 0개 값만 사용할 수 있음을 기억하십시오. 만약 모든 xi가 중괄호 아래의 조건을 만족하면 표시기 함수의 곱도 XNUMX이 됩니다. 그러나 x 중 하나라도i의 조건을 만족하지 못하면 제품은 2이 됩니다. 따라서 이러한 표시기 함수의 곱 자체는 1개의 값(중괄호 안의 조건이 모든 x에 의해 충족되는 경우)만 취할 수 있는 표시기 함수로 간주될 수 있습니다.i's) 및 0(중괄호 안의 조건이 1 x 이상 충족되지 않는 경우)i). 그러므로,

끝

(모두 xi는 최대{x인 경우에만 α보다 작습니다.i}는 α보다 작음)

이것으로 우도 함수에 대한 논의를 마칩니다. 이 문제들을 재미있게 연습하셨기를 바랍니다!

XNUMX차원 모수에 대한 최대 우도 추정량 계산하기

이 섹션에서는 앞서 계산한 우도 함수를 사용하여 일부 공통 분포에 대한 최대 우도 추정기를 얻습니다. 이 섹션은 주로 XNUMX차 미분 테스트, XNUMX차 미분 테스트 등 최적화 도구 사용에 크게 의존합니다. 우리는 이 섹션에서 매우 복잡한 미적분학으로 들어가지 않을 것이고 우리 자신을 단일 변수 미적분학으로 제한할 것입니다. 다변수 미적분은 다음 섹션에서 사용됩니다.

앞서 우리는 다음과 같이 정의되는 최대 우도 추정기를 얻었습니다.

단일 차원용 MLE

우리는 또한 П(pθ(xi))는 우도 함수였습니다. MLE는 우도 함수를 최대화하는 θ입니다. 따라서 우리의 작업은 매우 간단합니다. 미분을 사용하여 이전에 계산한 가능성 함수를 최대화하기만 하면 됩니다.

참고: 가능성 함수를 구별하는 것이 쉽지 않은 경우가 있습니다. 그래서 우리는 우도 대신 로그 우도를 자주 사용합니다. 로그 함수를 사용하면 악명 높은 제품 및 미분법을 사용하지 않아도 됩니다. log(x)는 증가 함수이기 때문에 로그 우도와 우도의 최대화는 동일합니다.

MLE

예 :

우도 함수를 더 잘 이해하기 위해 몇 가지 예를 들어보겠습니다.

I) 베르누이 분포:

가능성 함수:

MLE

로그 가능성 함수:

MLE

최대 가능성 추정기:

MLE

XNUMX차 도함수의 계산:

(0, 1)의 임계점 계산

임계점
식 6.1

XNUMX차 도함수의 계산:

위의 식에 방정식 6.1을 대입하면 다음을 얻습니다.

따라서 p = 1/n*(sum(xi))는 로그 가능성의 최대화입니다. 그러므로,

MLE는 베르누이 분포에 대한 표본 평균 추정량입니다! 예, 우리가 기사의 시작 부분에서 이야기 한 것입니다. 엄밀한 수학적 공식과 계산을 사용하여 평균과 같은 자연스러운 것이 어떻게 생성될 수 있는지 놀랍지 않습니까!

II) 포아송 분포:

가능성 함수:

로그 가능성 함수:

최대 가능성 추정기:

XNUMX차 도함수의 계산:

(0, ∞)의 임계점 계산

식 6.2

XNUMX차 도함수의 계산:

위의 식에 방정식 6.2을 대입하면 다음을 얻습니다.

따라서 λ = 1/n*(sum(xi))는 로그 가능성의 최대화입니다. 따라서,

다시 표본 평균 추정량입니다!

III) 지수 분포:

가능성 함수:

로그 가능성 함수:

최대 가능성 추정기:

XNUMX차 도함수의 계산:

(0, ∞)의 임계점 계산

식 6.3

XNUMX차 도함수의 계산:

위의 식에 방정식 6.3을 대입하면 다음을 얻습니다.

따라서 λ = (sum(xi))/n은 로그 가능성의 최대화입니다. 그러므로,

IV) 균일 분포:

가능성 함수:

여기서는 log-likelihood 함수를 사용할 필요가 없습니다. 또한 우리는 미적분학 도구를 사용할 필요도 없습니다. 우리는 순수 논리를 사용하여 위의 우도 함수의 최대화를 찾으려고 노력할 것입니다. 우리는 가지고, 

n은 표본 크기를 나타내므로 n은 양수입니다. 따라서 상수 n의 경우 α가 감소함에 따라 가능성이 증가합니다. 우도 함수는 α의 최소값에 대해 최대화됩니다. 최소값은 얼마입니까? 제로가 아닙니다. 중괄호 안의 표현식을 참조하십시오. 

따라서 α의 최소값은 max{xi}. 따라서,

이것으로 최대 가능성 계산에 대한 논의를 마칩니다.
단일 매개변수가 있는 통계 모델용 추정기.

다차원 매개변수에 대한 최대 가능성 추정기 계산

이 섹션에서는 이전에 계산된 우도 함수를 사용하여 XNUMX-모수 모델인 정규 분포에 대한 최대 우도 추정기를 얻을 것입니다. 이 섹션에서는 기울기 계산과 같은 다변수 미적분학의 기본 도구에 익숙해야 합니다. 이러한 도구에 익숙하지 않더라도 걱정하지 마십시오! 수학적 복잡성을 무시하고 계산 이면의 광범위한 개념만 이해하도록 선택할 수 있습니다. 이러한 모든 도구는 최신 계산기를 사용하여 쉽게 수행할 수 있는 다차원 함수를 최적화하는 데만 사용할 것입니다.

이 섹션에서 해결하고자 하는 문제는 두 개의 매개변수를 특징으로 하는 분포에 대한 MLE를 찾는 것입니다. 이와 관련하여 정규 분포가 가장 유명하기 때문에 평균(μ)과 분산(σ2). 프로세스는 다음과 같이 진행됩니다.

통계 모델:

E = (-∞, ∞) 가우스 확률 변수는 실수 라인의 모든 값을 취할 수 있습니다.

θ = (μ, σ2)는 2차원 매개변수로 해석됩니다(직관적으로 2개의 매개변수 세트로 생각하십시오).

Θ = (-∞, ∞) × (0, ∞) 평균(μ)은 실제 선과 분산(σ2)는 항상 양수입니다.

매개변수: θ = (μ, σ2)

확률 밀도 함수:

가능성 함수:

로그 가능성 함수:

이제 위의 다차원 함수를 다음과 같이 최대화합니다.

로그 가능성의 기울기 계산:

로그 가능성의 기울기 | 최대 가능성 추정

기울기를 XNUMX 벡터와 동일하게 설정하면 다음을 얻습니다.

그라디언트 = 0 | 최대 가능성 추정

첫 번째 요소를 비교할 때 다음을 얻습니다.

비교

두 번째 요소를 비교하면 다음을 얻습니다.

n/2n

따라서 우리는 가우스 분포의 매개변수에 대한 최대 우도 추정기를 얻었습니다.

구아시안 분포

분산 추정기는 일반적으로 편향된 표본 분산 추정기라고 합니다.

최대 가능성 추정을 통한 파레토 문제 이해하기

이 가이드의 시작 부분에서 만난 확률 분포 중 하나는 파레토 분포였습니다. Pareto 분포의 모수 θ와 평균 또는 분산과 같은 수치적 특성과 일대일 대응 관계가 없었기 때문에 자연 추정량을 찾을 수 없었습니다. 이제 최대 가능도 추정 도구를 갖추었으므로 이를 사용하여 파레토 분포의 모수 θ에 대한 MLE를 찾아보겠습니다. 파레토 분포에는 다음과 같은 확률 밀도 함수가 있습니다.

그래픽으로 다음과 같이 나타낼 수 있습니다(θ=1의 경우).

파레토 분포
작성자 별 이미지

1. 모델:

(모양 매개변수(θ)는 항상 양수입니다. 샘플 공간은 스케일보다 커야 합니다. 이 경우에는 1입니다.)

2. 매개변수: θ

3. 확률 밀도 함수:

PDF | 최대 가능성 추정

4. 가능성 함수:

최대 가능성 추정

5. 로그 가능성 함수:

로그 가능성 | 최대 가능성 추정

6. 최대 가능성 추정기:

MLE | 최대 가능성 추정

7. XNUMX차 도함수의 계산:

XNUMX차 도함수

8. (0, ∞)의 임계점 계산

계산
식 8.1

9. XNUMX차 도함수의 계산:

이차 미분 | 최대 가능성 추정

위의 식에 방정식 8.1을 대입하면 다음을 얻습니다.

대체 | 최대 가능성 추정

10. 결과:

따라서 θ = n/(sum(log(xi))) 로그 가능도의 최대화입니다. 그러므로,

결과

좀 더 의미 있게 만들기 위해 실수를 몇 개 추가해 보겠습니다. 우리는 R을 사용하여 계산을 할 것입니다.

다음 R 코드를 사용하여 모양 (θ)=scale=50인 파레토 분포에서 다음 1개 숫자 세트를 무작위로 생성했습니다.

install.packages('extremefit') 라이브러리(extremefit) xi<-rpareto(50, 1, 0, 1)

첫 번째 인수(50)는 샘플 크기를 보여줍니다. 두 번째 인수(1)는 형상 매개변수(θ)를 나타냅니다. 세 번째 인수를 무시할 수 있습니다(기본적으로 1으로 설정되는 위치 매개변수를 표시함). 네 번째 인수(1)는 XNUMX로 설정된 scale 매개변수를 보여줍니다. 다음 숫자 세트가 생성되었습니다.

생성된 숫자 | 최대 가능성 추정

작성자 별 이미지

MLE의 성능을 평가해 보겠습니다. MLE가 1에 가까울 것으로 예상하여 좋은 추정량임을 보여야 합니다. 계산:

n=50 S<-sum(log(xi)) MLE<-n/S

출력 : 1.007471

정말 1에 가깝습니다! 실제로 MLE는 훌륭한 일을 하고 있습니다. 계속해서 샘플 크기를 변경하고 다른 샘플에 대한 MLE를 계산해 보십시오. 모양 매개변수를 변경하거나 다른 분포를 실험해 볼 수도 있습니다.

결론

이 기사의 목적은 MLE를 추상적인 기능이 아니라 견고한 논리적 및 개념적 토대 아래에 뿌리를 두고 있는 매혹적인 수학적 구조로 보는 것입니다. 이 가이드를 통해 즐거운 시간을 보내셨기를 바랍니다!

의문 사항이나 제안 사항이 있는 경우 의견란에 답장을 보내주십시오. 통해 저에게 연락 주시기 바랍니다 우편.

내 기사가 마음에 들었고 더 많은 기사를 읽고 싶다면 여기를 방문하십시오. 링크.

참고: 모든 이미지는 작성자가 제작했습니다.

저자에 관하여

저는 현재 싱가포르 국립 대학교(NUS)의 학부 XNUMX학년 학생이며 통계, 데이터 과학, 경제학 및 기계 학습에 깊은 관심을 가지고 있습니다. 저는 다양한 데이터 과학 프로젝트에서 일하는 것을 좋아합니다. 내 프로젝트 중 일부를 보려면 여기를 방문하십시오. 링크.

이 기사에 표시된 미디어는 Analytics Vidhya의 소유가 아니며 작성자의 재량에 따라 사용됩니다.

PlatoAi. Web3 재창조. 데이터 인텔리전스 증폭.
액세스하려면 여기를 클릭하십시오.

출처: https://www.analyticsvidhya.com/blog/2021/09/maximum-likelihood-estimation-a-comprehensive-guide/

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?