Zephyrnet-logo

Maximale waarschijnlijkheidsschatting - een uitgebreide gids

Datum:

Dit artikel is gepubliceerd als onderdeel van het Data Science-blogathon

Introductie

Het doel van deze gids is om het idee van maximale waarschijnlijkheidsschatting te verkennen, wat misschien wel het belangrijkste concept in de statistiek is. Als je geïnteresseerd bent om jezelf vertrouwd te maken met de wiskunde achter Data Science, dan is het schatten van de maximale waarschijnlijkheid iets dat je niet mag missen. Voor de meeste statistici is het de sine qua non van hun vakgebied, iets zonder welke statistiek veel van zijn kracht zou verliezen.

Wat is de maximale waarschijnlijkheidsschatting?

Dus, wat is de maximale waarschijnlijkheidsschatting? We moeten veel concepten begrijpen voordat we deze vraag grondig kunnen beantwoorden. Voor nu kunnen we het intuïtief als volgt zien:

Het is een proces waarbij gegevens worden gebruikt om schatters te vinden voor verschillende parameters die een distributie kenmerken.

Laten we, om het beter te begrijpen, in de schoenen van een statisticus stappen. Als statisticus is onze primaire taak het analyseren van de gegevens die we hebben gekregen. Natuurlijk zou het eerste zijn om de distributie te identificeren waaruit we onze gegevens hebben verkregen. Vervolgens moeten we onze gegevens gebruiken om de parameters van onze distributie te vinden. Een parameter is een numeriek kenmerk van een verdeling. Normale verdelingen hebben, zoals we weten, gemiddelde (µ) & variantie (σ2) als parameters. Binominale verdelingen hebben het aantal proeven (n) en de kans op succes (p) als parameters. Gammaverdelingen hebben vorm (k) en schaal (θ) als parameters. Exponentiële verdelingen hebben het inverse gemiddelde (λ) als parameter. De lijst gaat verder. Deze parameters of numerieke kenmerken zijn essentieel voor het begrijpen van de grootte, vorm, spreiding en andere eigenschappen van een distributie. Omdat de gegevens die we hebben meestal willekeurig worden gegenereerd, weten we vaak niet de werkelijke waarden van de parameters die onze distributie kenmerken.

Dat is het moment waarop schatters tussenkomen. Een schatter is als een functie van uw gegevens die u geschatte waarden geeft van de parameters waarin u geïnteresseerd bent. De meesten van ons zijn misschien bekend met een paar algemene schatters. Bijvoorbeeld de steekproefgemiddelde schatter, die misschien wel de meest gebruikte schatter is. Het wordt berekend door het gemiddelde van onze waarnemingen te nemen en is erg handig bij het schatten van parameters die het gemiddelde van hun verdeling vertegenwoordigen (bijvoorbeeld de parameter µ voor een normale verdeling). Een andere veelgebruikte schatter is de steekproefvariantieschatter, die wordt berekend als de variantie van onze waarnemingen en erg handig is bij het schatten van parameters die de variantie van hun verdeling vertegenwoordigen (bijvoorbeeld de parameter σ2 voor een normale verdeling). Je zou in de verleiding kunnen komen om te denken dat we gemakkelijk schatters voor een parameter kunnen maken op basis van het numerieke kenmerk dat de parameter vertegenwoordigt. Gebruik bijvoorbeeld de steekproefgemiddelde schatter wanneer de parameter het gemiddelde van uw verdeling is. Of gebruik de voorbeeldmodusschatter als u de modus van uw distributie probeert te schatten. Deze worden vaak natuurlijke schatters genoemd. Er zijn echter twee problemen met deze benadering:

1) Dingen zijn niet altijd zo eenvoudig. Soms kunt u problemen tegenkomen bij het schatten van parameters die niet eenvoudig één-op-één corresponderen met gemeenschappelijke numerieke kenmerken. Als ik u bijvoorbeeld de volgende verdeling geef:

voorbeeld distributie | Maximale waarschijnlijkheidsschatting

De bovenstaande vergelijking toont de kansdichtheidsfunctie van een Pareto-verdeling met schaal = 1. Het is niet eenvoudig om parameter θ van de verdeling te schatten met behulp van eenvoudige schatters, omdat de numerieke kenmerken van de verdeling variëren als een functie van het bereik van de parameter. Het gemiddelde van de bovenstaande verdeling wordt bijvoorbeeld als volgt uitgedrukt:

Gemiddelde | Maximale waarschijnlijkheidsschatting

Dit is slechts één voorbeeld uit de oneindig mogelijke geavanceerde statistische verdelingen. (We zullen later zien hoe we de maximale waarschijnlijkheidsschatting kunnen gebruiken om een ​​geschikte schatter te vinden voor de parameter θ van de bovenstaande verdeling)

2) Zelfs als de dingen eenvoudig zouden zijn, is er geen garantie dat de natuurlijke schatter de beste zou zijn. Soms geven andere schatters u betere schattingen op basis van uw gegevens. in de 8th sectie van dit artikel, zouden we de MLE berekenen voor een reeks reële getallen en de nauwkeurigheid ervan zien.

In dit artikel zullen we ons concentreren op de schatting van de maximale waarschijnlijkheid, een proces van schatting dat ons een hele klasse van schatters geeft die maximale waarschijnlijkheidsschatters of MLE's worden genoemd. MLE's worden vaak beschouwd als de krachtigste klasse van schatters die ooit kan worden geconstrueerd. Misschien heb je verschillende vragen in je hoofd: Hoe zien MLE's eruit? Hoe kunnen we ze vinden? Zijn ze echt goed?

Laten we onze reis naar het magische en mystieke rijk van MLE's beginnen.

Vereisten:

1) Waarschijnlijkheid: Basisideeën over willekeurige variabelen, gemiddelde, variantie en kansverdelingen. Als je niet bekend bent met deze ideeën, kun je een van mijn artikelen lezen over 'Willekeurige variabelen begrijpen' hier.

2) Wiskunde: Voorkennis in Calculus en Lineaire Algebra; het vermogen om eenvoudige convexe optimalisatieproblemen op te lossen door partiële afgeleiden te nemen; hellingen berekenen.

3) Passie: Ten slotte, lezen over iets zonder er een passie voor te hebben, is als weten zonder te leren. Echt leren komt wanneer je een passie hebt voor het onderwerp en het concept dat wordt onderwezen.

Inhoudsopgave

1) Basisprincipes van statistische modellering

2) Totale variatieafstand

3) Kullback-Leibler-divergentie

4) Afleiden van de schatting van de maximale waarschijnlijkheid

5) De waarschijnlijkheidsfunctie begrijpen en berekenen

6) Berekenen van de maximale waarschijnlijkheidsschatter voor enkeldimensionale parameters

7) Berekenen van de maximale waarschijnlijkheidsschatter voor multidimensionale parameters

8) Demystificeren van het Pareto-probleem

Basisprincipes van statistische modellering voor schatting van de maximale waarschijnlijkheid

Statistische modellering is het proces van het creëren van een vereenvoudigd model voor het probleem waarmee we worden geconfronteerd. Voor ons gebruikt het de waarneembare gegevens die we hebben om de waarheid of de realiteit vast te leggen (dwz het begrijpen van die numerieke kenmerken). Het is natuurlijk niet mogelijk om de volledige waarheid vast te leggen of te begrijpen. We zullen er dus naar streven om zoveel mogelijk realiteit te vatten.

Over het algemeen is een statistisch model voor een willekeurig experiment het paar:

Willekeurig experiment | Maximale waarschijnlijkheidsschatting

Er zijn veel nieuwe variabelen! Laten we ze een voor een begrijpen.

1) E staat voor de monsterruimte van een experiment. Met experiment bedoelen we de gegevens die we hebben verzameld, de waarneembare gegevens. E is dus het waardenbereik dat onze gegevens kunnen aannemen (op basis van de verdeling die we eraan hebben toegewezen).

2)θ vertegenwoordigt de familie van waarschijnlijkheidsmaten op E. Met andere woorden, het geeft de kansverdeling aan die we aan onze gegevens hebben toegewezen (op basis van onze waarnemingen).

3) θ vertegenwoordigt de verzameling onbekende parameters die de verdeling karakteriseren ℙθ. Al die numerieke kenmerken die we willen schatten, worden weergegeven door θ. Voor nu is het voldoende om θ te zien als een enkele parameter die we proberen te schatten. We zullen later zien hoe om te gaan met multidimensionale parameters.

4) Θ vertegenwoordigt de parameterruimte, dwz het bereik of de verzameling van alle mogelijke waarden die de parameter θ zou kunnen aannemen.

Laten we 2 voorbeelden nemen:

A) Voor Bernoulli-distributie: We weten dat als X een willekeurige variabele van Bernoulli is, X slechts 2 mogelijke waarden kan aannemen: 0 en 1. De steekproefruimte E is dus de verzameling {0, 1}. De Bernoulli-kansverdeling wordt weergegeven als Ber(p), waarbij p de Bernoulli-parameter is, die het gemiddelde of de kans op succes weergeeft. Omdat het een kansmaat is, ligt p altijd tussen 0 en 1. Daarom is Θ = [0, 1]. Als we dit allemaal samenvoegen, krijgen we het volgende statistische model voor de Bernoulli-verdeling:

bernoulli distributie | Maximale waarschijnlijkheidsschatting

B) Voor exponentiële distributie: We weten dat als X een exponentiële willekeurige variabele is, X elke positieve reële waarde kan aannemen. De steekproefruimte E is dus [0, ). De exponentiële kansverdeling wordt weergegeven als Exp(λ), waarbij λ de exponentiële parameter is, die de snelheid vertegenwoordigt (hier het inverse gemiddelde). Omdat X altijd positief is, is zijn verwachting altijd positief, en daarom is het inverse gemiddelde of λ positief. Daarom is Θ = (0, ). Als we dit allemaal samenvoegen, verkrijgen we het volgende statistische model voor exponentiële verdeling:

exponentiële verdeling

Ik hoop dat jullie allemaal een goed begrip hebben van het maken van formele statistische modellen voor onze gegevens. Het grootste deel van dit idee zou alleen worden gebruikt als we formele definities introduceren en bepaalde voorbeelden doornemen. Als je eenmaal goed thuis bent in het proces van het bouwen van MLE's, hoef je dit niet allemaal te doorlopen.

Een opmerking over notaties: Over het algemeen is de notatie voor schatters een hoed boven de parameter die we proberen te schatten, dwz als θ de parameter is die we proberen te schatten, dan wordt de schatter voor θ weergegeven als θ-hat. We zullen de termen schatter en schatting (de waarde die de schatter geeft) door elkaar heen in de gids gebruiken.

Voordat ik verder ga met de volgende sectie, vind ik het belangrijk om een ​​belangrijke veronderstelling te bespreken die we in dit artikel zullen maken: identificeerbaarheid.

Identificeerbaarheid betekent dat verschillende waarden van een parameter (uit de parameterruimte Θ) verschillende kansverdelingen moeten opleveren. Met andere woorden, voor twee verschillende waarden van een parameter (θ & θ'), moeten er twee verschillende verdelingen zijn (ℙ θ & '). Dat is,

waarschijnlijkheid

Gelijkwaardig,

ratings

Totale variatieafstand voor schatting van maximale waarschijnlijkheid

Hier zullen we het idee van het berekenen van de afstand tussen twee kansverdelingen onderzoeken. Er kunnen twee verdelingen zijn uit verschillende families, zoals de exponentiële verdeling en de uniforme verdeling, of twee verdelingen uit dezelfde familie, maar met verschillende parameters zoals Ber(0.2) en Ber(0.8). Het begrip afstand wordt vaak gebruikt in statistieken en machine learning: het vinden van afstand tussen gegevenspunten, de afstand van een punt tot een hypervlak, de afstand tussen twee vlakken, enz.

Hoe kunnen we de afstand tussen twee kansverdelingen berekenen? Een van de meest gebruikte statistieken door statistici is Total Variation (TV) Distance, die de grootste afwijking meet tussen twee kansverdelingen voor een subset van de steekproefruimte E.

Wiskundig wij
definieer de totale variatieafstand tussen twee verdelingen ℙ en ℚ as
volgt:

Totale variatieafstand | Maximale waarschijnlijkheidsschatting

Intuïtief verwijst de totale variatieafstand tussen twee distributies ℙ en naar het maximale verschil in hun waarschijnlijkheden berekend voor een subset over de steekproefruimte waarvoor ze zijn gedefinieerd. Laten we, om het beter te begrijpen, willekeurige variabelen X en Y toewijzen aan respectievelijk ℙ en ℚ. Voor alle A die deelverzamelingen zijn van E, vinden we ℙ(A) en ℚ(A), die de kans vertegenwoordigen dat X en Y een waarde in A aannemen. We vinden de absolute waarde van het verschil tussen die kansen voor alle A en vergelijk ze. Het maximale absolute verschil is de totale variatieafstand. Laten we een voorbeeld nemen.

Bereken de totale variatieafstand tussen ℙ en ℚ waarbij de kansmassafuncties als volgt zijn:

waarschijnlijkheid massaverdeling

Aangezien de waargenomen waarden van de willekeurige variabelen die overeenkomen met ℙ en ℚ alleen over 1 en 2 zijn gedefinieerd, is de steekproefruimte E = {1, 2}. Wat zijn de mogelijke subsets? Er zijn 3 mogelijke subsets: {1}, {2} en {1, 2}. (We kunnen de nulset altijd negeren). Laten we het absolute verschil in ℙ(A) en ℚ(A) berekenen voor alle mogelijke deelverzamelingen A. 

absoluut verschil in ℙ(A) en ℚ(A)

Daarom kunnen we de tv-afstand als volgt berekenen:

tv-afstand berekenen

Dat is het. Stel dat we nu worden gevraagd om de TV-afstand tussen Exp(1) en Exp(2)-distributie te berekenen. Kun je de afstand tussen de tv's vinden met behulp van de bovenstaande methode? Zeker niet! Exponentiële verdelingen hebben E = [0, ). Er zullen oneindige deelverzamelingen van E zijn. Je kunt ℙ(A) en ℚ(A) niet vinden voor elk van die deelverzamelingen. Om met dergelijke situaties om te gaan, is er een eenvoudigere analytische formule voor de berekening van tv-afstand, die anders wordt gedefinieerd, afhankelijk van of ℙ en ℚ discrete of continue distributies zijn.

A) Voor het discrete geval,

Als ℙ en ℚ discrete verdelingen zijn met waarschijnlijkheidsmassafuncties p(x) en q(x) en steekproefruimte E, dan kunnen we de TV-afstand daartussen berekenen met behulp van de volgende vergelijking:

voor het discrete geval | maximale waarschijnlijkheidsschatting

Laten we de bovenstaande formule gebruiken om de tv-afstand tussen ℙ=Ber(α) en ℚ=Ber(β) te berekenen. De berekening is als volgt:

E = {0,1} omdat we te maken hebben met willekeurige variabelen van Bernoulli.

TV-afstand in Bernoulli-distributie

Met behulp van de kortere wegformule verkrijgen we,

kortere formule | maximale waarschijnlijkheidsschatting

Dat is netter! Laten we het nu hebben over het continue geval.

B) Voor het continue geval,

Als ℙ en ℚ continue verdelingen zijn met kansdichtheidsfuncties p(x) en q(x) en steekproefruimte E, dan kunnen we de TV-afstand daartussen berekenen met behulp van de volgende vergelijking:

voor continu geval | maximale waarschijnlijkheidsschatting

Laten we de bovenstaande formule gebruiken om de TV-afstand te berekenen tussen ℙ=Exp(1) en ℚ=Unif[0,1] (de uniforme verdeling tussen 0 en 1). De berekening is als volgt:

TV-afstand voor uniforme distributie

We hebben de indicatorfunctie 𝕀 hierboven gebruikt, die de waarde 1 aanneemt als aan de voorwaarde tussen de accolades is voldaan en anders 0. We hadden de kansdichtheidsfuncties ook als volgt kunnen beschrijven zonder de indicatorfunctie te gebruiken:

PDF | maximale waarschijnlijkheidsschatting

De indicatorfuncties zorgen ervoor dat de berekeningen er netter uitzien en stellen ons in staat om de hele reële lijn te behandelen als de steekproefruimte voor de kansverdelingen.

Met behulp van de kortere wegformule verkrijgen we,

met behulp van de korte formule | maximale waarschijnlijkheidsschatting

We hebben dus de vereiste waarde verkregen. (Zelfs het voorstellen van deze berekening zonder de analytische vergelijking lijkt onmogelijk).

We zullen nu enkele wiskundige eigenschappen van de totale variatieafstand zien:

1) Symmetrie:

symmetrie

2) Zekerheid:

bepaaldheid | maximale waarschijnlijkheidsschatting

3) Bereik:

Bereik | maximale waarschijnlijkheidsschatting

4) Driehoeksongelijkheid:

driehoeksongelijkheid | maximale waarschijnlijkheidsschatting

Dat is bijna het einde van onze discussie over tv-afstand. U vraagt ​​zich misschien af ​​wat de reden van deze omweg is. We begonnen onze discussie met MLE en gingen verder met praten over tv-afstand. Wat is het verband tussen hen? Zijn ze verwant aan elkaar? Nou, technisch gezien niet. MLE is niet gebaseerd op tv-afstand, maar is gebaseerd op iets dat Kullback-Leibler-divergentie wordt genoemd, wat we in de volgende sectie zullen zien. Maar een goed begrip van tv-afstand is nog steeds belangrijk om het idee van MLE's te begrijpen.

Nu voor het belangrijkste en lastigste deel van deze gids. Laten we proberen een schatter te construeren op basis van de tv-afstand. Hoe zullen we het doen?

We gebruiken een van de eigenschappen van tv-afstand die we eerder hebben besproken - een eigenschap die je de waarde vertelt die tv-afstand nadert als twee distributies gelijk worden. Je raadt het goed: het is beslistheid. We beschouwen de volgende twee verdelingen (uit dezelfde familie, maar verschillende parameters):

θ en*, waarbij θ de parameter is die we proberen te schatten, θ* de werkelijke waarde is van de parameter θ en ℙ de kansverdeling is van de waarneembare gegevens die we hebben. Uit vastheid hebben we,

van p tot ~p

(Merk op hoe de bovenstaande vergelijking identificeerbaarheid heeft gebruikt). Omdat we ook hadden geleerd dat de minimale waarde van tv-afstand 0 is, kunnen we ook zeggen:

minimale afstand | maximale waarschijnlijkheidsschatting

Grafisch kunnen we hetzelfde als volgt voorstellen:

grafische weergave | maximale waarschijnlijkheidsschatting

Afbeelding door auteur

(De blauwe curve kan elke functie zijn die tussen 0 en 1 ligt en de minimumwaarde = 0 bereikt bij θ*). Het zal voor ons niet mogelijk zijn om de functie TV(ℙθ,*) bij afwezigheid van de echte parameterwaarde θ*. Wat als we de tv-afstand zouden kunnen schatten en onze schatter de minimalisatie zouden laten zijn van de geschatte tv-afstand tussen ℙθ en*?!

Bij het schatten is ons doel om een ​​schatter θ-hat te vinden voor de parameter θ zodat θ-hat dicht bij de echte parameter θ* ligt. We kunnen zien dat in termen van het minimaliseren van de afstand tussen de verdelingen ℙθ en*. En dan komt tv-afstand in beeld. We willen een schatter θ-hat zodat wanneer θ = θ-hat, de geschat TV-afstand tussen de waarschijnlijkheidsmaten onder θ en θ* wordt geminimaliseerd. Dat wil zeggen, θ =θ-hat moet de minimalizer zijn van de geschatte tv-afstand tussen ℙθ en*. Wiskundig kunnen we θ-hat omschrijven als:

argmin

grafisch,

aanschouwelijk
Afbeelding door auteur

We willen de blauwe curve kunnen schatten (TV(ℙθ,*)) om de rode curve te vinden (TV(ℙθ,*)-hoed). De waarde van θ die de rode curve minimaliseert, zou θ-hat zijn, wat dicht bij de waarde van θ zou moeten liggen die de blauwe curve minimaliseert, dwz θ*.

Dat is in een notendop het fundamentele idee van MLE. We zullen dit idee later ergens anders gebruiken en de maximale waarschijnlijkheidsschatter afleiden.

Dus we hebben tv (θ,*)-hat, die we zouden kunnen minimaliseren met behulp van onze rekentools en een schatter kunnen verkrijgen. Probleem opgelost. Rechts? Nee! We hebben een ander probleem - Hoe tv te vinden (ℙθ,*)-hoed? En dat is een lastige. Er is geen gemakkelijke manier om de tv-afstand te schatten tussen ℙθ en*. En daarom faalt dit hele idee van het schatten van de tv-afstand om θ-hat te vinden. Wat kunnen we nu doen?

Misschien kunnen we een andere functie vinden die vergelijkbaar is met tv-afstand en gehoorzaamt aan bepaaldheid, een functie die vooral te schatten moet zijn. En dat brengt ons bij de volgende sectie - Kullback-Leibler Divergence.

Kullback-Leibler divergentie

KL-divergentie, ook bekend als relatieve entropie, zoals tv-afstand, wordt anders gedefinieerd, afhankelijk van of ℙ en discrete of continue distributies zijn.

A) Voor het discrete geval,

Als ℙ en ℚ discrete verdelingen zijn met waarschijnlijkheidsmassafuncties p(x) en q(x) en steekproefruimte E, dan kunnen we de KL-divergentie daartussen berekenen met behulp van de volgende vergelijking:

KL divergentie voor discrete case | maximale waarschijnlijkheidsschatting

De vergelijking ziet er zeker complexer uit dan die voor tv-afstand, maar het is meer vatbaar voor schatting. We zullen dit later in deze sectie zien als we het hebben over de eigenschappen van KL-divergentie.

Laten we de bovenstaande formule gebruiken om de KL-divergentie tussen ℙ=Ber(α) en ℚ=Ber(β) te berekenen. De berekening is als volgt:

KL voor Bernoulli | maximale waarschijnlijkheidsschatting

Met behulp van de formule verkrijgen we,

vergelijking | maximale waarschijnlijkheidsschatting

Dat is het. Een moeilijkere berekening, maar we zullen het nut later zien.

B) Voor het continue geval,

Als ℙ en ℚ continue verdelingen zijn met kansdichtheidsfuncties p(x) en q(x) en steekproefruimte E, dan kunnen we de KL-divergentie daartussen berekenen met behulp van de volgende vergelijking:

KL voor continu | maximale waarschijnlijkheidsschatting

Laten we de bovenstaande formule gebruiken om de KL-divergentie tussen ℙ=Exp(α) en ℚ=Exp(β) te berekenen. De berekening is als volgt:

KL voor exponentieel geval | maximale waarschijnlijkheidsschatting

Aangezien we te maken hebben met exponentiële verdelingen, is de steekproefruimte E [0, ). Met behulp van de formule verkrijgen we,

Eindformule | maximale waarschijnlijkheidsschatting

Maak je geen zorgen, ik zal je niet door de lange integratie in delen laten gaan om de bovenstaande integraal op te lossen. Gebruik gewoon wolfram of een andere integrale rekenmachine om het op te lossen, wat ons het volgende resultaat geeft:

integraal resultaat | maximale waarschijnlijkheidsschatting

En we zijn klaar. Zo kunnen we de KL-divergentie tussen twee distributies berekenen. Als je meer wilt oefenen, probeer dan de KL-divergentie te berekenen tussen ℙ=N(α, 1) en ℚ=N(β, 1) (normale verdelingen met verschillend gemiddelde en dezelfde variantie). Laat me je antwoorden weten in het commentaargedeelte.

We zullen nu de eigenschappen van KL-divergentie bespreken. Deze eigenschappen zullen verschillen van de tv-afstand, omdat KL-divergentie een divergentie is, geen afstand. Wees voorzichtig met de formulering. We verwachten misschien niet dat eigenschappen zoals symmetrie of driehoeksongelijkheid behouden blijven, maar we verwachten wel dat bepaaldheid standhoudt om ons in staat te stellen schatters te construeren. Houd er ook rekening mee dat we in de volgende secties alleen de definitie van KL-divergentie voor continue distributies zullen gebruiken. Vervang voor discrete distributies de som door integraal en de procedure blijft hetzelfde. Hieronder volgen de eigenschappen van KL-divergentie:

1) Asymmetrie (in het algemeen):

asymmetrie | maximale waarschijnlijkheidsschatting

2) Zekerheid:

Kl bepaaldheid | maximale waarschijnlijkheidsschatting

3) Bereik:

KL-bereik

(Ja, KL-divergentie kan groter zijn dan één omdat het geen waarschijnlijkheid of een verschil in waarschijnlijkheden vertegenwoordigt. De KL-divergentie gaat ook naar oneindig voor enkele veel voorkomende distributies zoals de KL-divergentie tussen twee uniforme distributies onder bepaalde omstandigheden)

4) Geen driehoeksongelijkheid (in het algemeen):

Kl geen driehoeksongelijkheid | maximale waarschijnlijkheidsschatting

5) vatbaar voor schatting:

KL vatbaar voor schatting | maximale waarschijnlijkheidsschatting

Denk aan de eigenschappen van verwachting: Als X een willekeurige variabele is met kansdichtheidsfunctie f(x) en steekproefruimte E, dan

PDF | maximale waarschijnlijkheidsschatting

Als we x vervangen door een functie van x, zeg g(x), krijgen we

vervang X

We hebben precies dit gebruikt in de uitdrukking voor KL-divergentie. De kansdichtheidsfunctie is p(x) en g(x) is log(p(x)/q(x)). We hebben ook een subscript x~ℙ geplaatst om te laten zien dat we de verwachting onder p(x) berekenen. Dus we hebben,

volgende vergelijking

We zullen zien hoe dit KL-divergentie schatbaar maakt in paragraaf 4. Laten we nu de ideeën gebruiken die aan het einde van paragraaf 2 zijn besproken om ons probleem aan te pakken van het vinden van een schatter θ-hat voor parameter θ van een kansverdeling ℙθ:

We beschouwen de volgende twee verdelingen (uit dezelfde familie, maar verschillende parameters):

θ en*, waarbij θ de parameter is die we proberen te schatten, θ* de werkelijke waarde is van de parameter θ en ℙ de kansverdeling is van de waarneembare gegevens die we hebben.

Uit vastheid hebben we,

van vastheid | maximale waarschijnlijkheidsschatting

(Merk op hoe de bovenstaande vergelijking identificeerbaarheid heeft gebruikt). Omdat we ook hadden geleerd dat de minimumwaarde van KL-divergentie 0 is, kunnen we zeggen:

minimale KL divergentie | maximale waarschijnlijkheidsschatting

Grafisch kunnen we hetzelfde als volgt voorstellen:

grafiek KL divergentie | maximale waarschijnlijkheidsschatting
Afbeelding door auteur

(De blauwe curve kan elke functie zijn die varieert tussen 0 en oneindig en de minimumwaarde = 0 bereikt bij θ*). Het zal voor ons niet mogelijk zijn om de functie KL(ℙ* || θ) bij afwezigheid van de echte parameterwaarde θ*. We schatten het dus en laten onze schatter θ-hat de minimalizer zijn van de geschatte KL-divergentie tussen ℙ* enθ.

Wiskundig, 

wiskundig

En die schatter is precies de maximum-waarschijnlijkheidsschatter. We zullen de bovenstaande uitdrukking in de volgende sectie vereenvoudigen en de redenering achter de terminologie begrijpen.

grafisch,

aanschouwelijk

Afbeelding door auteur

We willen de blauwe curve kunnen schatten (KL(ℙ* || θ)) om de rode curve te vinden (KL(ℙ* || θ)-hoed). De waarde van θ die de rode curve minimaliseert zou θ-hat zijn, wat dicht bij de waarde van θ zou moeten liggen die de blauwe curve minimaliseert, dwz θ*. En het beste is dat we, in tegenstelling tot de tv-afstand, de KL-divergentie kunnen schatten en de minimalisatie ervan kunnen gebruiken als onze schatter voor θ.

Zo krijgen we de MLE.

De schatter afleiden voor de maximale waarschijnlijkheidsschatting

In de vorige sectie hebben we verkregen dat de MLE θ-hat wordt berekend als:

MLE
Vergelijking 1

We hebben de verdelingen overwogen ℙθ en*, waarbij θ de parameter is die we proberen te schatten, θ* de werkelijke waarde is van de parameter θ en ℙ de kansverdeling is van de waarneembare gegevens die we hebben. Laat de kansverdelingsfuncties (kan dichtheid of massa zijn, afhankelijk van de aard van de verdeling) p . zijnθ(x) en p*(X).

(Merk op dat we dezelfde letter p hebben gebruikt om de distributiefuncties aan te duiden, aangezien beide distributies tot dezelfde familie behoren ℙ. Ook is de parameter gesubscripteerd om de parameters te onderscheiden waaronder we de distributiefuncties berekenen.)

We hebben ook het proces van het uitdrukken van de KL-divergentie als een verwachting laten zien:

KL divergentie | maximale waarschijnlijkheidsschatting

waar c =Ex~*[logboek (blz*(x))] wordt behandeld als een constante omdat deze onafhankelijk is van θ. (θ* is een constante waarde). We hebben deze hoeveelheid helemaal niet nodig omdat we de KL-afwijking over θ willen minimaliseren.

Dus we kunnen zeggen dat,

KL hoed
Vergelijking 2

Hoe is dit nuttig voor ons? Bedenk wat de wet van de grote getallen ons geeft. Naarmate onze steekproefomvang (aantal waarnemingen) groter wordt, convergeert het steekproefgemiddelde van de waarnemingen naar het werkelijke gemiddelde of de verwachting van de onderliggende verdeling. Dat wil zeggen, als Y1, Y2, ..., Jan zijn onafhankelijke en identiek verdeelde willekeurige variabelen, dan

n willekeurige variabele

We kunnen Y . vervangeni met een willekeurige functie van een willekeurige variabele, zeg log(pθ(x)). Dus we krijgen, 

1 / n

Met behulp van onze gegevens kunnen we dus de 1/n*sum(log(pθ(x)) en gebruik dat als schatter voor Ex~*[logboek (blzθ(X))]

Zo hebben we, 

schatter | maximale waarschijnlijkheidsschatting

Als we dit in vergelijking 2 substitueren, krijgen we:

vergelijking 2

Ten slotte hebben we een schatter verkregen voor de KL-divergentie. We kunnen dit in vergelijking 1 vervangen om de maximale waarschijnlijkheidsschatter te verkrijgen:

MLE

(Toevoeging van een constante kan de functie alleen op en neer verschuiven, heeft geen invloed op de minimalizer van de functie)

(Het vinden van de minimalizer van negatief van f(x) is gelijk aan het vinden van de optimizer van f(x))

maximale waarde | maximale waarschijnlijkheidsschatting

(Vermenigvuldiging van een functie met een constante heeft geen invloed op de maximalisatie ervan)

argmax

(log(x) is een oplopende functie, de maximalisator van g(f(x)) is de maximalisator van f(x) als g een oplopende functie is)

Dus de maximale waarschijnlijkheidsschatter θMLE-hat (verandering in notatie) wordt wiskundig gedefinieerd als:

max

(pθ(xi)) wordt de waarschijnlijkheidsfunctie genoemd. De MLE is dus een schatter die de maximalizer is van de waarschijnlijkheidsfunctie. Daarom wordt het de Maximum Likelihood Estimator genoemd. We zullen de waarschijnlijkheidsfunctie in meer detail begrijpen in de volgende sectie.

De functie voor het schatten van de maximale waarschijnlijkheid begrijpen en berekenen

De waarschijnlijkheidsfunctie is als volgt gedefinieerd:

A) Voor discrete gevallen: Als X1, X2, …, Xn zijn identiek verdeelde willekeurige variabelen met het statistische model (E, {ℙθ}θΘ), waarbij E een discrete steekproefruimte is, wordt de waarschijnlijkheidsfunctie gedefinieerd als:

waarschijnlijkheidsfunctie | maximale waarschijnlijkheidsschatting

Verder, als X1, X2, …, Xn zijn onafhankelijk,

meer

Per definitie van kansmassafunctie, als X1, X2, …, Xn hebben waarschijnlijkheidsmassafunctie pθ(x), dan,θ[Xi=xi] = blzθ(xi). Dus we hebben:

PMF | maximale waarschijnlijkheidsschatting

B) Voor continu geval: Het is hetzelfde als voorheen. We hoeven alleen de kansmassafunctie te vervangen door de kansdichtheidsfunctie. Als X1, X2, …, Xn zijn onafhankelijke en identiek verdeelde willekeurige variabelen met het statistische model (E, {ℙθ}θΘ), waarbij E een continue steekproefruimte is, wordt de waarschijnlijkheidsfunctie gedefinieerd als:

voor continu

waar, pθ(xi) is de kansdichtheidsfunctie van de verdeling die X1, X2, …, Xn volgen.

Om de waarschijnlijkheidsfunctie beter te begrijpen, zullen we enkele voorbeelden nemen.

I) Bernoulli-verdeling:

Model:

BD | maximale waarschijnlijkheidsschatting

Parameter: θ=p

Kansdichtheidsfunctie:

PMF | maximale waarschijnlijkheidsschatting

Waarschijnlijkheid Functie:

waarschijnlijkheidsfunctie

II) Poissonverdeling:

Model:

gif distributie

(Voorbeeldruimte is de verzameling van alle gehele getallen)

Parameter: θ=λ

Kansdichtheidsfunctie:

PMF

Waarschijnlijkheid Functie:

waarschijnlijkheid

III) Exponentiële verdeling:

Model:

ED | maximale waarschijnlijkheidsschatting

Parameter: θ=λ

Kansdichtheidsfunctie:

PDF van ED

Waarschijnlijkheid Functie:

Waarschijnlijkheidsfunctie

IV) Uniforme verdeling:

Deze zal ook erg interessant zijn omdat de kansdichtheidsfunctie alleen wordt gedefinieerd over een bepaald bereik, dat zelf afhangt van de waarde van de te schatten parameter.

Model:

Uniform

Parameter: θ=α

Kansdichtheidsfunctie:

PDF

(We kunnen het deel negeren waar x meer dan 0 zou moeten zijn omdat het onafhankelijk is van de parameter α)

Waarschijnlijkheid Functie:

Waarschijnlijkheid

Dat lijkt lastig. Hoe moeten we het product van indicatorfuncties nemen? Onthoud dat de indicatorfunctie slechts 2 waarden kan aannemen: 1 (als aan de voorwaarde tussen de accolades is voldaan) en 0 (als niet aan de voorwaarde tussen de accolades wordt voldaan). Als alle xi's voldoen aan de voorwaarde onder de accolades, dan is het product van de indicatorfuncties er ook één. Maar als zelfs een van de xi's niet aan de voorwaarde voldoet, wordt het product nul. Daarom kan het product van deze indicatorfuncties zelf worden beschouwd als een indicatorfunctie die slechts 2 waarden kan aannemen - 1 (als aan de voorwaarde tussen de accolades wordt voldaan door alle xi's) en 0 (als aan de voorwaarde tussen de accolades niet wordt voldaan met ten minste 1 xi). Daarom

uiteinde

(Alle xi's zijn kleiner dan α als en slechts als max{xi} is kleiner dan α)

En dit besluit onze discussie over waarschijnlijkheidsfuncties. Ik hoop dat je veel plezier hebt gehad met het oefenen van deze problemen!

De schatting van de maximale waarschijnlijkheid voor enkeldimensionale parameters berekenen

In deze sectie zullen we de eerder berekende waarschijnlijkheidsfuncties gebruiken om de maximale waarschijnlijkheidsschatters voor enkele veelvoorkomende distributies te verkrijgen. Deze sectie is sterk afhankelijk van het gebruik van optimalisatietools, voornamelijk eerste afgeleide tests, tweede afgeleide tests, enzovoort. We zullen in deze sectie niet ingaan op zeer complexe calculus en ons beperken tot enkelvoudige variabele calculus. Multivariabele calculus zou in de volgende sectie worden gebruikt.

Eerder hadden we de maximale waarschijnlijkheidsschatter verkregen die als volgt is gedefinieerd:

MLE voor enkele dimensie

We zagen ook dat П(pθ(xi)) was de waarschijnlijkheidsfunctie. De MLE is gewoon de θ die de waarschijnlijkheidsfunctie maximaliseert. Onze taak is dus vrij eenvoudig: maximaliseer gewoon de waarschijnlijkheidsfuncties die we eerder hebben berekend met behulp van differentiatie.

Opmerking: soms is het niet eenvoudig om de waarschijnlijkheidsfunctie te onderscheiden. Daarom gebruiken we vaak log-waarschijnlijkheid in plaats van waarschijnlijkheid. Het gebruik van logaritmische functies behoedt ons voor het gebruik van de beruchte product- en delingsregels van differentiatie. Aangezien log(x) een stijgende functie is, is de maximalisator van log-waarschijnlijkheid en waarschijnlijkheid hetzelfde.

MLE

Voorbeelden:

Om de waarschijnlijkheidsfunctie beter te begrijpen, zullen we enkele voorbeelden nemen.

I) Bernoulli-verdeling:

Waarschijnlijkheid Functie:

MLE

Log-waarschijnlijkheid Functie:

MLE

Maximale waarschijnlijkheidsschatter:

MLE

Berekening van de eerste afgeleide:

Berekening van kritieke punten in (0, 1)

kritieke punten
Vergelijking 6.1

Berekening van de tweede afgeleide:

Vervanging van vergelijking 6.1 in de bovenstaande uitdrukking, we verkrijgen,

Daarom is p = 1/n*(som(xi)) is de maximalisator van de log-waarschijnlijkheid. Daarom,

De MLE is de steekproefgemiddelde schatter voor de Bernoulli-verdeling! Ja, degene waar we het aan het begin van het artikel over hadden. Is het niet verbazingwekkend hoe zoiets natuurlijks als het gemiddelde kan worden geproduceerd met behulp van rigoureuze wiskundige formuleringen en berekeningen!

II) Poissonverdeling:

Waarschijnlijkheid Functie:

Log-waarschijnlijkheid Functie:

Maximale waarschijnlijkheidsschatter:

Berekening van de eerste afgeleide:

Berekening van kritieke punten in (0, ∞)

Vergelijking 6.2

Berekening van de tweede afgeleide:

Vervanging van vergelijking 6.2 in de bovenstaande uitdrukking, we verkrijgen,

Daarom is λ = 1/n*(som(xi)) is de maximalizer van de log-waarschijnlijkheid. Dus,

Het is weer de steekproefgemiddelde schatter!

III) Exponentiële verdeling:

Waarschijnlijkheid Functie:

Log-waarschijnlijkheid Functie:

Maximale waarschijnlijkheidsschatter:

Berekening van de eerste afgeleide:

Berekening van kritieke punten in (0, ∞)

Vergelijking 6.3

Berekening van de tweede afgeleide:

Vervanging van vergelijking 6.3 in de bovenstaande uitdrukking, we verkrijgen,

Daarom is λ = (som(xi))/n is de maximalisator van de log-waarschijnlijkheid. Daarom,

IV) Uniforme verdeling:

Waarschijnlijkheid Functie:

Hier hoeven we de log-waarschijnlijkheidsfunctie niet te gebruiken. We hoeven ook niet de tools van calculus te gebruiken. We zullen proberen de maximalisator van de bovenstaande waarschijnlijkheidsfunctie te vinden met behulp van pure logica. Wij hebben, 

Aangezien n de steekproefomvang voorstelt, is n positief. Daarom neemt voor constante n de waarschijnlijkheid toe naarmate α afneemt. De waarschijnlijkheidsfunctie zou worden gemaximaliseerd voor de minimumwaarde van α. Wat is de minimale waarde? Het is niet nul. Zie de uitdrukking tussen de accolades. 

Daarom is de minimumwaarde van α max{xi}. Dus,

Dit besluit onze discussie over het berekenen van de maximale waarschijnlijkheid
schatter voor statistische modellen met enkele parameters.

De schatting van de maximale waarschijnlijkheid voor multidimensionale parameters berekenen

In deze sectie zullen we de eerder berekende waarschijnlijkheidsfuncties gebruiken om de maximale waarschijnlijkheidsschatters voor de normale verdelingen te verkrijgen, een model met twee parameters. Deze sectie vereist bekendheid met basisinstrumenten van multivariabele calculus, zoals het berekenen van hellingen. Maak je geen zorgen als je niet bekend bent met deze tools! U kunt ervoor kiezen om de wiskundige ingewikkeldheden te negeren en alleen het brede idee achter de berekeningen te begrijpen. We zullen al die tools alleen gebruiken voor het optimaliseren van de multidimensionale functies, wat je gemakkelijk kunt doen met moderne rekenmachines.

Het probleem dat we in deze sectie willen behandelen, is het vinden van de MLE voor een distributie die wordt gekenmerkt door twee parameters. Aangezien normale verdelingen in dit opzicht het meest bekend zijn, gaan we door het proces van het vinden van MLE's voor de twee parameters: gemiddelde (µ) en variantie (σ2). Het proces gaat als volgt:

Statistisch model:

E = (-∞, ∞) aangezien een Gaussiaanse willekeurige variabele elke waarde op de reële lijn kan aannemen.

θ = (µ, σ2) wordt geïnterpreteerd als een 2-dimensionale parameter (denk er intuïtief aan als een set van 2 parameters).

Θ = (-∞, ∞) × (0, ∞) aangezien het gemiddelde (µ) elke waarde in de reële lijn en variantie kan aannemen (σ2) is altijd positief.

Parameter: θ = (µ, σ2)

Kansdichtheidsfunctie:

Waarschijnlijkheid Functie:

Log-waarschijnlijkheid Functie:

We maximaliseren nu de bovenstaande multidimensionale functie als volgt:

Het verloop van de Log-waarschijnlijkheid berekenen:

gradiënt van de log-waarschijnlijkheid | maximale waarschijnlijkheidsschatting

Door de gradiënt gelijk te stellen aan de nulvector, verkrijgen we,

helling =0 | maximale waarschijnlijkheidsschatting

Als we het eerste element vergelijken, krijgen we:

vergelijking

Als we het tweede element vergelijken, krijgen we:

n/2n

We hebben dus de maximale waarschijnlijkheidsschatters verkregen voor de parameters van de Gauss-verdeling:

guassiaanse distributie

De schatter voor variantie wordt in de volksmond de biased sample variantieschatter genoemd.

Demystificatie van het Pareto-probleem tov maximale waarschijnlijkheidsschatting

Een van de kansverdelingen die we aan het begin van deze gids tegenkwamen, was de Pareto-verdeling. Omdat er geen één-op-één overeenkomst was van de parameter θ van de Pareto-verdeling met een numeriek kenmerk zoals gemiddelde of variantie, konden we geen natuurlijke schatter vinden. Nu we zijn uitgerust met de tools voor maximale waarschijnlijkheidsschatting, gaan we ze gebruiken om de MLE te vinden voor de parameter θ van de Pareto-verdeling. Bedenk dat de Pareto-verdeling de volgende kansdichtheidsfunctie heeft:

Grafisch kan het als volgt worden weergegeven (voor θ=1):

pareto-distributie
Afbeelding door auteur

1. Model:

(Vormparameter (θ) is altijd positief. De steekproefruimte moet groter zijn dan de schaal, die in ons geval 1 is)

2. Parameter:

3. Waarschijnlijkheidsdichtheidsfunctie:

PDF | maximale waarschijnlijkheidsschatting

4. Waarschijnlijkheidsfunctie:

maximale waarschijnlijkheidsschatting

5. Log-waarschijnlijkheidsfunctie:

log waarschijnlijkheid | maximale waarschijnlijkheidsschatting

6. Maximale waarschijnlijkheidsschatter:

MLE | maximale waarschijnlijkheidsschatting

7. Berekening van de eerste afgeleide:

eerste afgeleide

8. Berekening van kritieke punten in (0, ∞)

berekening
Vergelijking 8.1

9. Berekening van de tweede afgeleide:

tweede afgeleide | maximale waarschijnlijkheidsschatting

Vervanging van vergelijking 8.1 in de bovenstaande uitdrukking, we verkrijgen,

vervanging | maximale waarschijnlijkheidsschatting

10. Resultaat:

Daarom is θ = n/(sum(log(xi))) is de maximalisator van de log-waarschijnlijkheid. Daarom,

resultaat

Laten we, om de zaken betekenisvoller te maken, enkele reële getallen invoeren. We gebruiken R om de berekeningen uit te voeren.

Ik heb willekeurig de volgende set van 50 getallen gegenereerd uit een Pareto-verdeling met vorm (θ) = schaal = 1 met behulp van de volgende R-code:

install.packages('extremefit') bibliotheek(extremefit) xi<-rpareto(50, 1, 0, 1)

Het eerste argument (50) toont de steekproefomvang. Het tweede argument (1) toont de vormparameter (θ). U kunt het derde argument negeren (het toont de locatieparameter, die standaard op nul staat). Het vierde argument (1) toont de schaalparameter, die is ingesteld op 1. De volgende reeks getallen is gegenereerd:

gegenereerde nummers | maximale waarschijnlijkheidsschatting

Afbeelding door auteur

Laten we de prestaties van onze MLE evalueren. We mogen verwachten dat de MLE dicht bij 1 ligt om aan te tonen dat het een goede schatter is. Berekeningen:

n=50 S<-som(log(xi)) MLE<-n/S

Uitgang: 1.007471

Dat is ongelooflijk dicht bij 1! Inderdaad, de MLE doet geweldig werk. Ga je gang, probeer de steekproefomvang te wijzigen en bereken de MLE voor verschillende steekproeven. U kunt ook proberen de vormparameter te wijzigen of zelfs experimenteren met andere distributies.

Conclusie

Het doel van dit artikel was om MLE's niet te zien als abstracte functies, maar als betoverende wiskundige constructies die hun wortels diep geworteld hebben in solide logische en conceptuele fundamenten. Ik hoop dat je het leuk vond om deze gids door te nemen!

Als je twijfels of suggesties hebt, reageer dan in het opmerkingenveld. Neem dan gerust contact met mij op via mail.

Als je mijn artikel leuk vond en er meer van wilt lezen, bezoek dan dit link.

Opmerking: alle afbeeldingen zijn gemaakt door de auteur.

Over de auteur

Ik ben momenteel een eerstejaars student aan de National University of Singapore (NUS) en ben zeer geïnteresseerd in statistiek, datawetenschap, economie en machine learning. Ik werk graag aan verschillende Data Science-projecten. Als je een aantal van mijn projecten wilt zien, bezoek dan dit link.

De media die in dit artikel worden getoond, zijn geen eigendom van Analytics Vidhya en worden naar goeddunken van de auteur gebruikt.

PlatoAi. Web3 opnieuw uitgevonden. Gegevensintelligentie versterkt.
Klik hier om toegang te krijgen.

Bron: https://www.analyticsvidhya.com/blog/2021/09/maximum-likelihood-estimation-a-comprehensive-guide/

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?