この記事は、の一部として公開されました データサイエンスブログソン
概要
このガイドの目的は、統計でおそらく最も重要な概念である最尤推定の概念を探求することです。 データサイエンスの背後にある数学に精通することに興味がある場合は、最尤推定を見逃すことはできません。 ほとんどの統計学者にとって、それは彼らの専門分野の必須条件のようなものであり、それなしでは統計はその力の多くを失うでしょう。
最尤推定とは何ですか
では、最尤推定とは何ですか? この質問に完全に答える前に、多くの概念を理解する必要があります。 今のところ、直感的に次のように考えることができます。
これは、データを使用して、分布を特徴付けるさまざまなパラメーターの推定量を見つけるプロセスです。
それをよりよく理解するために、統計家の立場に立ちましょう。 統計家である私たちの主な仕事は、提示されたデータを分析することです。 当然、最初に行うことは、データを取得した分布を特定することです。 次に、データを使用して分布のパラメーターを見つける必要があります。 パラメータは、分布の数値特性です。 正規分布には、ご存じのとおり、平均(µ)と分散(σ)があります。2)パラメータとして。 二項分布は、パラメーターとして試行回数(n)と成功確率(p)を持ちます。 ガンマ分布は、パラメーターとして形状(k)とスケール(θ)を持っています。 指数分布は、パラメーターとして逆平均(λ)を持ちます。 リストは続きます。 これらのパラメーターまたは数値特性は、分布のサイズ、形状、広がり、およびその他の特性を理解するために不可欠です。 私たちが持っているデータはほとんどランダムに生成されるため、分布を特徴付けるパラメーターの真の値がわからないことがよくあります。
それが推定量が介入するときです。推定量は、関心のあるパラメーターの概算値を提供するデータの関数のようなものです。私たちのほとんどは、いくつかの一般的な推定量に精通しているかもしれません。 たとえば、サンプル平均推定量は、おそらく最も頻繁に使用される推定量です。 これは、観測値の平均をとることによって計算され、それらの分布の平均を表すパラメーター(たとえば、正規分布のパラメーターµ)を推定しようとするときに非常に便利です。 もうXNUMXつの一般的な推定量は、サンプル分散推定量です。これは、観測値の分散として計算され、分布の分散を表すパラメーター(たとえば、パラメーターσ)を推定するときに非常に便利です。2 正規分布の場合)。 パラメータが表す数値特性に基づいて、パラメータの推定量を簡単に作成できると考えたくなるかもしれません。 たとえば、パラメーターが分布の平均である場合は常に、サンプル平均推定量を使用します。 または、分布の最頻値を推定しようとしている場合は、標本最頻値推定器を使用します。 これらはしばしば自然推定量と呼ばれます。 ただし、このアプローチにはXNUMXつの問題があります。
1)物事は必ずしもそれほど単純ではありません。 場合によっては、一般的な数値特性との単純なXNUMX対XNUMXの対応がないパラメーターの推定に関連する問題が発生することがあります。 たとえば、次のディストリビューションを提供するとします。
上記の式は、scale = 1のパレート分布の確率密度関数を示しています。 分布の数値特性はパラメーターの範囲の関数として変化するため、単純な推定量に基づいて分布のパラメーターθを推定することは容易ではありません。 たとえば、上記の分布の平均は次のように表されます。
これは、無限に可能な高度な統計分布から選択されたXNUMXつの例にすぎません。 (後で、最尤推定を使用して、上記の分布のパラメーターθの適切な推定量を見つける方法を説明します)
2)物事が単純であったとしても、自然推定量が最良のものであるという保証はありません。 場合によっては、他の推定量がデータに基づいてより適切な推定値を提供します。 8でth この記事のセクションでは、実数のセットのMLEを計算し、その精度を確認します。
この記事では、最尤推定量に焦点を当てます。これは、最尤推定量またはMLEと呼ばれる推定量のクラス全体を提供する推定プロセスです。 MLEは、これまでに構築できる最も強力な推定量のクラスと見なされることがよくあります。 あなたはあなたの心の中にいくつかの質問があるかもしれません:MLEはどのように見えますか? どうすればそれらを見つけることができますか? 彼らは本当に良いですか?
MLEの魔法と神秘的な領域への旅を始めましょう。
前提条件:
1)確率: 確率変数、平均、分散、確率分布に関する基本的な考え方。 これらのアイデアに慣れていない場合は、「確率変数について」に関する私の記事のXNUMXつを読むことができます。 こちら.
2)数学: 微積分と線形代数の予備知識。 偏導関数を取ることによって単純な凸最適化問題を解く能力。 勾配の計算。
3)情熱: 最後に、情熱を持たずに何かについて読むことは、学ぶことなく知るようなものです。 あなたが教えられている主題と概念に情熱を持っているとき、本当の学習は来ます。
コンテンツの表
1)統計モデリングの基礎
2)総変動距離
3)カルバックライブラーダイバージェンス
4)最尤推定量の導出
5)尤度関数の理解と計算
6)一次元パラメーターの最尤推定量の計算
7)多次元パラメーターの最尤推定量の計算
8)パレート問題の謎を解き明かす
最尤推定のための統計モデリングの基礎
統計モデリングは、私たちが直面している問題の単純化されたモデルを作成するプロセスです。 私たちにとって、それは私たちが真実または現実を捉えなければならない(すなわち、それらの数値的特徴を理解する)観察可能なデータを使用しています。 もちろん、完全な真実を捉えたり理解したりすることはできません。 ですから、できるだけ現実を把握することを目指します。
一般に、ランダム実験の統計モデルは次のペアです。
新しい変数がたくさんあります! それらを一つ一つ理解していきましょう。
1)Eは、実験のサンプル空間を表します。 実験とは、収集したデータ、つまり観測可能なデータを意味します。 したがって、Eは、データが取ることができる値の範囲です(割り当てられた分布に基づきます)。
2)ℙθ Eの確率測度のファミリーを表します。言い換えると、(観測に基づいて)データに割り当てた確率分布を示します。
3)θは分布を特徴付ける未知のパラメータのセットを表しますℙθ。 推定したいすべての数値的特徴は、θで表されます。 今のところ、θを推定しようとしている単一のパラメーターと考えるだけで十分です。 多次元パラメータの処理方法については後で説明します。
4)Θは、パラメータ空間、つまり、パラメータθがとることができるすべての可能な値の範囲またはセットを表します。
2つの例を見てみましょう。
A)ベルヌーイ分布の場合: Xがベルヌーイ確率変数である場合、Xは2つの可能な値(0と1)のみを取ることができます。したがって、サンプル空間Eは集合{0、1}です。 ベルヌーイ確率分布はBer(p)として示されます。ここで、pはベルヌーイパラメーターであり、成功の平均または確率を表します。 これは確率の尺度であるため、pは常に0から1の範囲です。したがって、Θ= [0、1]です。 これらすべてをまとめると、ベルヌーイ分布の次の統計モデルが得られます。
B)指数分布の場合: Xが指数確率変数である場合、Xは任意の正の実数値を取ることができることがわかっています。 したがって、サンプル空間Eは[0、∞)です。 指数確率分布は、Exp(λ)として示されます。ここで、λは、レート(ここでは逆平均)を表す指数パラメーターです。 Xは常に正であるため、その期待値は常に正であり、したがって逆平均またはλは正です。 したがって、Θ=(0、∞)。 これらすべてをまとめると、指数分布の次の統計モデルが得られます。
皆さんが私たちのデータの正式な統計モデルを作成することについて十分に理解していることを願っています。 このアイデアのほとんどは、正式な定義を紹介し、特定の例を実行する場合にのみ使用されます。 MLEの構築プロセスに精通したら、これらすべてを実行する必要はありません。
表記に関する注意: 一般に、推定量の表記は、推定しようとしているパラメーターに対するハットです。つまり、θが推定しようとしているパラメーターである場合、θの推定量はθハットとして表されます。 ガイド全体で、推定量と推定値(推定量が与える値)という用語を同じ意味で使用します。
次のセクションに進む前に、この記事全体で識別可能性について行う重要な仮定について説明することが重要だと思います。
識別可能性とは、(パラメーター空間Θからの)パラメーターの異なる値が異なる確率分布を生成する必要があることを意味します。 言い換えると、パラメーターのXNUMXつの異なる値(θ&θ ')に対して、XNUMXつの異なる分布(ℙ)が存在する必要があります。 θ &ℙ θ ')。 あれは、
同様に、
最尤推定のための全変動距離
ここでは、0.2つの確率分布間の距離を計算するという考え方を探ります。 指数分布と一様分布など、異なるファミリからの0.8つの分布、または同じファミリからのXNUMXつの分布が存在する可能性がありますが、Ber(XNUMX)やBer(XNUMX)などのパラメータは異なります。 距離の概念は、統計や機械学習で一般的に使用されます。データポイント間の距離、ハイパープレーンからのポイントの距離、XNUMXつのプレーン間の距離などを検索します。
XNUMXつの確率分布間の距離をどのように計算できますか? 統計学者が最も一般的に使用する指標のXNUMXつは、全変動(TV)距離です。これは、サンプル空間EのサブセットのXNUMXつの確率分布間の最悪の偏差を測定します。
数学的に私たちは
XNUMXつの分布ℙとℚの間の合計変動距離を次のように定義します。
以下:
直感的には、XNUMXつの分布ℙとℚの間の合計変動距離は、それらが定義されているサンプル空間上の任意のサブセットに対して計算された確率の最大差を指します。 それをよりよく理解するために、確率変数XとYをそれぞれℙとℚに割り当てましょう。 EのサブセットであるすべてのAについて、ℙ(A)とℚ(A)を見つけます。これは、XとYがAの値をとる確率を表します。すべてのAとすべての確率の差の絶対値を見つけます。それらを比較します。 最大絶対差は、合計変動距離です。 例を見てみましょう。
ℙとℚの間の合計変動距離を計算します。ここで、確率質量関数は次のとおりです。
ℙとℚに対応する確率変数の観測値は1と2でのみ定義されるため、サンプル空間はE = {1、2}です。 可能なサブセットは何ですか? 考えられるサブセットは、{3}、{1}、{2、1}の2つです。 (私たちは常にヌルセットを無視するかもしれません)。 考えられるすべてのサブセットAについて、ℙ(A)とℚ(A)の絶対差を計算してみましょう。
したがって、TV距離は次のように計算できます。
それでおしまい。 Exp(1)とExp(2)の分布の間のTV距離を計算するように求められたとします。 上記の方法を使用して、それらの間のTV距離を見つけることができますか? 確かに違います! 指数分布のE = [0、∞)。 Eのサブセットは無限にあります。これらのサブセットのそれぞれについてℙ(A)とℚ(A)を見つけることはできません。 このような状況に対処するために、TV距離を計算するためのより単純な分析式があります。これは、ℙとℚが離散分布であるか連続分布であるかによって定義が異なります。
A)離散の場合、
ℙとℚが確率質量関数p(x)とq(x)とサンプル空間Eを持つ離散分布である場合、次の式を使用してそれらの間のTV距離を計算できます。
上記の式を使用して、ℙ= Ber(α)とℚ= Ber(β)の間のTV距離を計算してみましょう。 計算は次のとおりです。
ベルヌーイ確率変数を扱っているので、E = {0,1}。
ショートカット式を使用して、次のようになります。
それはすっきりです! それでは、継続的なケースについてお話ししましょう。
B)連続の場合、
ℙとℚが確率密度関数p(x)とq(x)とサンプル空間Eを持つ連続分布である場合、次の式を使用してそれらの間のTV距離を計算できます。
上記の式を使用して、ℙ= Exp(1)とℚ= Unif [0,1]の間のTV距離(0と1の間の一様分布)を計算してみましょう。 計算は次のとおりです。
上記のインジケーター関数𝕀を使用しました。これは、中括弧内の条件が満たされた場合は値1を取り、それ以外の場合は値0を取ります。 インジケーター関数を使用せずに、確率密度関数を次のように説明することもできます。
インジケーター関数を使用すると、計算がすっきりと見え、実数直線全体を確率分布のサンプル空間として扱うことができます。
ショートカット式を使用して、次のようになります。
これで、必要な値が得られました。 (分析方程式なしでこの計算を行うことを想像することさえ不可能のようです)。
ここで、全変動距離のいくつかの数学的特性を確認します。
1)対称性:
2)明確性:
3)範囲:
4)三角不等式:
これで、TV距離に関する議論はほぼ終わりです。 この迂回の理由について疑問に思われるかもしれません。 MLEとの話し合いを開始し、テレビの距離について話しました。 それらの間の関係は何ですか? それらは互いに関連していますか? まあ、技術的にはありません。 MLEは、TV距離に基づくのではなく、カルバック・ライブラー発散と呼ばれるものに基づいています。これについては、次のセクションで説明します。 ただし、MLEの概念を理解するには、TV距離を理解することが依然として重要です。
ここで、このガイドの最も重要でトリッキーな部分について説明します。 TV距離に基づいて推定量を作成してみましょう。 どうすればいいですか?
前に説明したTV距離のプロパティのXNUMXつ、つまりXNUMXつの分布が等しくなるにつれてTV距離が近づく値を示すプロパティを使用します。 あなたはそれを正しく推測しました-それは確実性です。 次のXNUMXつの分布を検討します(同じファミリーからのものですが、パラメーターが異なります)。
ℙθ およびℙθ*ここで、θは推定しようとしているパラメーター、θ*はパラメーターθの真の値、ℙは観測可能なデータの確率分布です。 明確さから、私たちは、
(上記の式が識別可能性をどのように使用しているかに注意してください)。 TV距離の最小値が0であることもわかったので、次のように言うこともできます。
グラフィカルに、次のように同じように表すことができます。
著者による画像
(青い曲線は、0から1の範囲で、θ*で最小値= 0に達する任意の関数である可能性があります)。 関数TV(ℙ)を計算することはできません。θ、ℙθ*)真のパラメータ値θ*がない場合。 TV距離を推定し、推定量をℙ間の推定TV距離の最小化値にするとしたらどうでしょうか。θ およびℙθ*?!
推定では、θ-hatが真のパラメーターθ*に近くなるように、パラメーターθの推定量θ-hatを見つけることが目標です。 分布間の距離を最小化するという観点からℙθ およびℙθ*。 そして、それはテレビの距離が写真に登場するときです。 θ=θ-hatの場合、 推定 θとθ*の下での確率測度間のTV距離は最小化されます。 つまり、θ=θ-ℙ間の推定TV距離の最小化値である必要がありますθ およびℙθ*。 数学的には、θ-hatは次のように説明できます。
グラフィカルに、
青い曲線を推定できるようにしたい(TV(ℙθ、ℙθ*))赤い曲線を見つける(TV(ℙθ、ℙθ*)-帽子)。 赤い曲線を最小化するθの値はθ-hatであり、青い曲線を最小化するθの値、つまりθ*に近いはずです。
これがMLEの基本的な考え方です。 後でこのアイデアを別の場所で使用して、最尤推定量を導き出します。
だから、私たちはテレビを持っています(ℙθ、ℙθ*)-微積分のツールを使用して最小化し、推定量を取得できる帽子。 問題がソートされました。 右? 番号! 私たちは別の問題を抱えています-テレビを見つける方法(ℙθ、ℙθ*)-帽子? そして、それは難しいことです。 ℙ間のテレビ距離を推定する簡単な方法はありませんθ およびℙθ*。 そしてそれが、θハットを見つけるためにテレビの距離を推定するというこのアイデア全体が失敗する理由です。 今、我々に何ができるだろうか?
たぶん、テレビの距離に似ていて、明確さに従う別の関数を見つけることができます。これは、最も重要なこととして推定できるはずです。 そして、それは次のセクション、カルバック・ライブラー発散に私たちをもたらします。
カルバック・ライブラー発散
TV距離のような相対エントロピーとしても知られるKL発散は、ℙとℚが離散分布であるか連続分布であるかによって定義が異なります。
A)離散の場合、
ℙとℚが確率質量関数p(x)とq(x)とサンプル空間Eを持つ離散分布である場合、次の方程式を使用してそれらの間のKL発散を計算できます。
この方程式は確かにTV距離の方程式よりも複雑に見えますが、推定にはより適しています。 これについては、このセクションの後半でKL発散の特性について説明するときに説明します。
上記の式を使用して、ℙ= Ber(α)とℚ= Ber(β)の間のKL発散を計算してみましょう。 計算は次のとおりです。
式を使用して、次の式を取得します。
それでおしまい。 より難しい計算ですが、その有用性については後で説明します。
B)連続の場合、
ℙとℚが確率密度関数p(x)とq(x)とサンプル空間Eを持つ連続分布である場合、次の式を使用してそれらの間のKL発散を計算できます。
上記の式を使用して、ℙ= Exp(α)とℚ= Exp(β)の間のKL発散を計算してみましょう。 計算は次のとおりです。
指数分布を扱っているので、サンプル空間Eは[0、∞)です。 式を使用して、次の式を取得します。
心配しないでください、私はあなたに上記の積分を解くために部品による長い統合を経験させません。 wolframまたは任意の積分計算機を使用してそれを解決するだけで、次の結果が得られます。
これで完了です。 これが、1つの分布間のKL発散を計算する方法です。 さらに練習したい場合は、ℙ= N(α、1)とℚ= N(β、XNUMX)の間のKL発散を計算してみてください(平均が異なり、分散が同じ正規分布)。 コメント欄であなたの答えを教えてください。
次に、KL発散の特性について説明します。 KL発散は距離ではなく発散であるため、これらのプロパティはTV距離とは異なります。 言葉遣いに注意してください。 対称性や三角不等式などのプロパティが保持されることは期待できないかもしれませんが、推定量を構築できるようにするために明確性が保持されることは期待しています。 また、次のセクションでは、連続分布のKL発散の定義のみを使用することに注意してください。 離散分布の場合、合計を積分に置き換えるだけで、手順は同じです。 KLダイバージェンスの特性は次のとおりです。
1)非対称性(一般的に):
2)明確性:
3)範囲:
(はい、KL発散は確率または確率の差を表さないため、XNUMXより大きくなる可能性があります。KL発散は、特定の条件下でのXNUMXつの均一な分布間のKL発散など、いくつかの非常に一般的な分布でも無限大になります)
4)三角不等式なし(一般的に):
5)推定に従順:
期待値の特性を思い出してください。Xが確率密度関数f(x)とサンプル空間Eを持つ確率変数である場合、
xをxの関数、たとえばg(x)に置き換えると、次のようになります。
KL発散の式でこれだけを使用しました。 確率密度関数はp(x)であり、g(x)はlog(p(x)/ q(x))です。 また、p(x)の下で期待値を計算していることを示すために、下付き文字x〜ℙを付けました。 だから私たちは、
これにより、セクション4でKL発散がどのように推定可能になるかを確認します。次に、セクション2の最後で説明したアイデアを使用して、確率分布ℙのパラメーターθに対する推定量θ-hatを見つける問題に対処しましょう。θ:
次のXNUMXつの分布を検討します(同じファミリーからのものですが、パラメーターが異なります)。
ℙθ およびℙθ*ここで、θは推定しようとしているパラメーター、θ*はパラメーターθの真の値、ℙは観測可能なデータの確率分布です。
明確さから、私たちは、
(上記の式が識別可能性をどのように使用しているかに注意してください)。 KL発散の最小値が0であることもわかったので、次のように言うことができます。
グラフィカルに、次のように同じように表すことができます。
(青い曲線は、0から無限大の範囲で、θ*で最小値= 0に達する任意の関数である可能性があります)。 関数KL(ℙθ* || ℙθ)真のパラメータ値θ*がない場合。 したがって、それを推定し、推定量θ-hatをℙ間の推定KL発散の最小化値とします。θ* およびℙθ.
数学的には、
そして、その推定量は正確に最尤推定量です。 次のセクションで上記の表現を簡略化し、その用語の背後にある理由を理解します。
グラフィカルに、
著者による画像
青い曲線を推定できるようにしたい(KL(ℙθ* || ℙθ))赤い曲線を見つける(KL(ℙθ* || ℙθ)-帽子)。 赤い曲線を最小化するθの値はθ-hatであり、青い曲線を最小化するθの値、つまりθ*に近いはずです。 そして最良の部分は、TV距離とは異なり、KL発散を推定し、その最小化をθの推定量として使用できることです。
これがMLEの取得方法です。
最尤推定の推定量の導出
前のセクションでは、MLEθ-hatが次のように計算されることを取得しました。
分布を検討しましたℙθ およびℙθ*ここで、θは推定しようとしているパラメーター、θ*はパラメーターθの真の値、ℙは観測可能なデータの確率分布です。 確率分布関数(分布の性質に応じて密度または質量になる可能性があります)をpとします。θ(x)およびpθ*(NS)。
(両方の分布が同じファミリーに属しているため、同じ文字pを使用して分布関数を示していることに注意してくださいℙ。また、分布関数を計算するパラメーターを区別するために、パラメーターに添え字が付けられています。)
また、期待値としてKL発散を表現するプロセスも示しました。
ここで、c = Ex~ℙθ*[log(pθ*(x))]は、θに依存しないため、定数として扱われます。 (θ*は定数値です)。 θ上のKL発散を最小限に抑えたいので、この量はまったく必要ありません。
だから、私たちはそれを言うことができます、
これは私たちにとってどのように役立ちますか? 大数の法則が私たちに与えるものを思い出してください。 サンプルサイズ(観測値の数)が大きくなると、観測値のサンプル平均は、基礎となる分布の真の平均または期待値に収束します。 つまり、Yの場合1は、Y2、…、Yn 独立しており、同じように分布している確率変数である場合、
Yを置き換えることができますi 確率変数の任意の関数、たとえばlog(pθ(NS))。 だから、私たちは、
したがって、データを使用して、1 / n * sum(log(pθ(x))そしてそれをEの推定量として使用するx~ℙθ*[log(pθ(NS))]
したがって、私たちは、
これを式2に代入すると、次のようになります。
最後に、KL発散の推定量を取得しました。 これを式1に代入して、最尤推定量を取得できます。
(定数の追加は、関数を上下にシフトするだけで、関数の最小化には影響しません)
(f(x)の負の最小化子を見つけることは、f(x)の最大化子を見つけることと同等です)
(定数による関数の乗算は、その最大化に影響しません)
(log(x)は増加関数であり、gが増加関数の場合、g(f(x))の最大化はf(x)の最大化です)
したがって、最尤推定量θMLE-帽子(表記法の変更)は数学的に次のように定義されます。
П(pθ(xi))は尤度関数と呼ばれます。 したがって、MLEは、尤度関数の最尤法である推定量です。 したがって、最尤推定量と呼ばれます。 次のセクションでは、尤度関数について詳しく説明します。
最尤推定関数の理解と計算
尤度関数は次のように定義されます。
A)個別の場合: Xの場合1、 バツ2、 …、 NSn 統計モデル(E、{ℙθ}θ∈Θ)、ここでEは離散サンプル空間であり、尤度関数は次のように定義されます。
さらに、Xの場合1、 バツ2、 …、 NSn 独立している、
確率質量関数の定義により、Xの場合1、 バツ2、 …、 NSn 確率質量関数pを持つθ(x)、そしてℙθ[Xi=xi] = pθ(xi)。 だから、私たちは持っています:
B)継続的な場合: 以前と同じです。 確率質量関数を確率密度関数に置き換える必要があります。 Xの場合1、 バツ2、 …、 NSn は独立しており、統計モデル(E、{ℙθ}θ∈Θ)、ここでEは連続サンプル空間であり、尤度関数は次のように定義されます。
ここで、pθ(xi)は、Xが分布する確率密度関数です。1、 バツ2、 …、 NSn 続く。
尤度関数をよりよく理解するために、いくつかの例を取り上げます。
I)ベルヌーイ分布:
型:
パラメータ:θ= p
確率質量関数:
尤度関数:
II)ポアソン分布:
型:
(サンプルスペースはすべての整数のセットです)
パラメータ:θ=λ
確率質量関数:
尤度関数:
III)指数分布:
型:
パラメータ:θ=λ
確率密度関数:
尤度関数:
IV)一様分布:
確率密度関数は特定の範囲でのみ定義され、それ自体は推定されるパラメーターの値に依存するため、これも非常に興味深いものになります。
型:
パラメータ:θ=α
確率密度関数:
(xはパラメーターαに依存しないため、xが0より大きくなければならない部分は無視できます)
尤度関数:
それはトリッキーなようです。 インジケーター関数の積をどのように取る必要がありますか? インジケーター関数は、2(中括弧内の条件が満たされている場合)と1(中括弧内の条件が満たされていない場合)の0つの値のみを取ることができることを忘れないでください。 すべてのxの場合iが中括弧の下の条件を満たす場合、インジケーター関数の積もXNUMXになります。 しかし、xのXNUMXつでもiが条件を満たさない場合、積はゼロになります。 したがって、これらのインジケーター関数自体の積は、2つの値のみを取ることができるインジケーター関数と見なすことができます-1(中括弧内の条件がすべてのxによって満たされる場合)i's)および0(中括弧内の条件が少なくとも1xで満たされない場合)i)。 したがって、
(すべてximax {xの場合に限り、のはα未満です。i}はα未満)
これで、尤度関数に関する説明は終わりです。 これらの問題の練習を楽しんでいただけたでしょうか。
一次元パラメーターの最尤推定量の計算
このセクションでは、前に計算した尤度関数を使用して、いくつかの一般的な分布の最尤推定量を取得します。 このセクションは、最適化のツール、主に一次微分テスト、二次微分テストなどの使用に大きく依存します。 このセクションでは、非常に複雑な微積分については説明せず、単一変数の微積分に限定します。 次のセクションでは、多変数微積分を使用します。
以前に、次のように定義される最尤推定量を取得しました。
また、そのП(pθ(xi))は尤度関数でした。 MLEは、尤度関数を最大化する単なるθです。 したがって、私たちの仕事は非常に単純です。微分を使用して以前に計算した尤度関数を最大化するだけです。
注:尤度関数を区別するのは簡単ではない場合があります。 そのため、尤度ではなく対数尤度を使用することがよくあります。 対数関数を使用すると、悪名高い積と微分の除算規則を使用する必要がなくなります。 log(x)は増加関数であるため、対数尤度と尤度の最大化は同じです。
例:
尤度関数をよりよく理解するために、いくつかの例を取り上げます。
I)ベルヌーイ分布:
尤度関数:
対数尤度関数:
最尤推定量:
一次導関数の計算:
(0、1)の臨界点の計算
二次導関数の計算:
上記の式に式6.1を代入すると、次のようになります。
したがって、p = 1 / n *(sum(xi))は対数尤度の最大化です。 したがって、
MLEは、ベルヌーイ分布のサンプル平均推定量です。 はい、記事の冒頭でお話ししたものです。 厳密な数学的定式化と計算を使用して、平均値のような自然なものを生成できるのは驚くべきことではありませんか。
II)ポアソン分布:
尤度関数:
対数尤度関数:
最尤推定量:
一次導関数の計算:
(0、∞)の臨界点の計算
二次導関数の計算:
上記の式に式6.2を代入すると、次のようになります。
したがって、λ= 1 / n *(sum(xi))は対数尤度の最大化です。 したがって、
これもサンプル平均推定量です。
III)指数分布:
尤度関数:
対数尤度関数:
最尤推定量:
一次導関数の計算:
(0、∞)の臨界点の計算
二次導関数の計算:
上記の式に式6.3を代入すると、次のようになります。
したがって、λ=(sum(xi))/ nは、対数尤度の最大化です。 したがって、
IV)一様分布:
尤度関数:
ここでは、対数尤度関数を使用する必要はありません。 また、微積分のツールを使用する必要もありません。 純粋なロジックを使用して、上記の尤度関数の最大化を見つけようとします。 我々は持っています、
nはサンプルサイズを表すため、nは正です。 したがって、定数nの場合、αが減少するにつれて可能性が高くなります。 尤度関数は、αの最小値に対して最大化されます。 最小値はいくつですか? ゼロではありません。 中括弧内の式を参照してください。
したがって、αの最小値はmax {xです。i}。 したがって、
これで最尤法の計算に関する議論は終わりです。
単一のパラメーターを持つ統計モデルの推定量。
多次元パラメーターの最尤推定量の計算
このセクションでは、前に計算した尤度関数を使用して、XNUMXパラメーターモデルである正規分布の最尤推定量を取得します。 このセクションでは、勾配の計算など、多変数微積分の基本的な機器に精通している必要があります。 これらのツールに慣れていない場合でも、心配する必要はありません。 数学的な複雑さを無視して、計算の背後にある幅広い考えだけを理解することを選択できます。 これらのツールはすべて、最新の計算機を使用して簡単に実行できる多次元関数を最適化するためにのみ使用します。
このセクションで対処したい問題は、XNUMXつのパラメーターによって特徴付けられる分布のMLEを見つけることです。 この点で正規分布が最も有名なので、平均(µ)と分散(σ)のXNUMXつのパラメーターのMLEを見つけるプロセスを実行します。2)。 プロセスは次のようになります。
統計モデル:
ガウス確率変数としてのE =(-∞、∞)は、実数直線上で任意の値を取ることができます。
θ=(µ、σ2)は2次元パラメーターとして解釈されます(直感的には2つのパラメーターのセットと考えてください)。
平均(µ)としてのΘ=(-∞、∞)×(0、∞)は、実数直線と分散(σ2)は常に正です。
パラメータ:θ=(µ、σ2)
確率密度関数:
尤度関数:
対数尤度関数:
ここで、上記の多次元関数を次のように最大化します。
対数尤度の勾配の計算:
勾配をゼロベクトルに等しく設定すると、次のようになります。
最初の要素を比較すると、次のようになります。
XNUMX番目の要素を比較すると、次のようになります。
したがって、ガウス分布のパラメーターの最尤推定量を取得しました。
分散の推定量は、一般にバイアスサンプル分散推定量と呼ばれます。
最尤推定によるパレート問題の謎解き
このガイドの冒頭で遭遇した確率分布のXNUMXつは、パレート分布でした。 パレート分布のパラメーターθと平均や分散などの数値特性とのXNUMX対XNUMXの対応がなかったため、自然な推定量を見つけることができませんでした。 最尤推定のツールが用意できたので、それらを使用して、パレート分布のパラメーターθのMLEを見つけましょう。 パレート分布には次の確率密度関数があることを思い出してください。
グラフィカルに、次のように表すことができます(θ= 1の場合)。
1。 モデル:
(形状パラメーター(θ)は常に正です。サンプル空間はスケール(この場合は1)より大きくなければなりません)
2.パラメータ:θ
3.確率密度関数:
4.尤度関数:
5.対数尤度関数:
6.最尤推定量:
7.一次導関数の計算:
8.(0、∞)の臨界点の計算
9.二次導関数の計算:
上記の式に式8.1を代入すると、次のようになります。
10.結果:
したがって、θ= n /(sum(log(xi)))は対数尤度の最大化です。 したがって、
物事をより意味のあるものにするために、いくつかの実数をプラグインしましょう。 Rを使用して計算を行います。
次のRコードを使用して、形状(θ)= scale = 50のパレート分布から次の1個の数値のセットをランダムに生成しました。
install.packages( 'extremefit')library(extremefit)xi <-rpareto(50、1、0、1)
最初の引数(50)は、サンプルサイズを示しています。 1番目の引数(1)は、形状パラメーター(θ)を示します。 1番目の引数は無視してかまいません(デフォルトでゼロに設定されている位置パラメーターが表示されます)。 XNUMX番目の引数(XNUMX)は、XNUMXに設定されたscaleパラメーターを示しています。次の数値のセットが生成されました。
著者による画像
MLEのパフォーマンスを評価してみましょう。 MLEが1に近いことを期待して、それが優れた推定量であることを示す必要があります。 計算:
n = 50 S <-sum(log(xi))MLE <-n / S
出力:1.007471
それは信じられないほど1に近いです! 確かに、MLEは素晴らしい仕事をしています。 先に進み、サンプルサイズを変更して、さまざまなサンプルのMLEを計算してみてください。 形状パラメータを変更したり、他のディストリビューションを試したりすることもできます。
まとめ
この記事の目的は、MLEを抽象的な関数としてではなく、しっかりとした論理的および概念的な基盤の下に深く根を下ろしている魅惑的な数学的構成概念として見ることでした。 このガイドを楽しんでいただけたでしょうか。
疑問や提案がある場合は、コメントボックスに返信してください。 お気軽にご連絡ください 電子メール.
私の記事が好きで、もっと読みたい場合は、こちらにアクセスしてください .
注:すべての画像は作者によって作成されています。
著者について
私は現在、シンガポール国立大学(NUS)のXNUMX年生で、統計、データサイエンス、経済学、機械学習に深い関心を持っています。 私はさまざまなデータサイエンスプロジェクトに取り組むのが大好きです。 私のプロジェクトのいくつかを見たい場合は、こちらにアクセスしてください .
この記事に示されているメディアは、Analytics Vidhyaが所有しておらず、作成者の裁量で使用されています。
PlatoAi。 Web3の再考。 増幅されたデータインテリジェンス。
アクセスするには、ここをクリックしてください。
出典:https://www.analyticsvidhya.com/blog/2021/09/maximum-likelihood-estimation-a-comprehensive-guide/