소셜 네트워크

빅 데이터

분석: 보안 단속을 넘어 베이징, 국가 통제 데이터 시장 차트

게재

on

케이트 카델

베이징 (로이터) – 업계에 오한을 불러일으킨 차량 공유 회사 Didi Global Inc와 같은 인터넷 거물에 대한 중국의 전면적인 규제 조치는 중국의 방대한 빅 데이터.

수년 동안 발효되었지만 빠르게 추진력을 얻고 있는 이 계획은 향후 수십 년 동안 중국 경제를 지원하도록 설계되었으며 국가가 감독하는 데이터 거래 시장에 대한 파일럿 프로젝트를 포함한다고 정책 문서가 보여줍니다.

그것은 또한 중국의 인터넷 산업을 전 세계적으로 더욱 고립시키고 미국과의 긴장을 고조시키겠다고 위협합니다.

데이터는 중국과 미국 사이의 중요한 전쟁터가 되고 있으며, 민간 기업의 확인되지 않은 수집으로 인해 국가 행위자가 기반 시설 및 기타 국가 이익에 대한 정보를 무기화할 수 있다는 양측의 우려가 커지고 있습니다.

올해 XNUMX월 중국은 데이터를 구현할 예정입니다. 경비 "중요한 데이터"를 처리하는 회사가 위험 평가를 수행하고 보고서를 제출하도록 요구하는 법률. 국가에 영향을 미치는 데이터를 처리하는 조직 보안 연례 검토에 제출해야 합니다.

이달 초, 중국 규제당국은 보안 우려를 이유로 미국 기업공개(IPO) 며칠 후 중국 앱 스토어에서 디디(Didi)의 주가를 급락시켰다.

더 넓은 전략 계획

그러나 국가 안보상의 이유로 데이터 통제권을 장악하려는 중국의 노력은 정부 데이터와 민간 기업이 수집한 데이터를 포함하여 그러한 정보에 대한 국가 감독을 받는 시장을 만들고 경제 성장 둔화를 부추기기 위한 전략적 목표의 한 측면일 뿐입니다. 전문가들은 말합니다.

이러한 정보에는 건강 기록 및 법원 문서에서 지도 및 쇼핑 기록에 이르기까지 거의 모든 유형의 데이터가 포함될 수 있습니다.

기술 정책 연구 책임자인 켄드라 쉐퍼(Kendra Schaefer)는 "해외 IPO 감사, 국경 간 이전 및 특정 유형의 데이터에 대한 공개 액세스는 카운티의 방대한 데이터 자산에 대한 감독을 인수할 뿐만 아니라 이를 상품화하려는 베이징의 목표를 방해하고 있습니다"라고 말했습니다. 베이징에 기반을 둔 컨설팅 회사인 Trivium China에서

정책 문서에 따르면 이 계획은 데이터를 분류하고, 표준화하고, 가치를 부여하기 위한 막대한 관료적 노력을 필요로 하며, 가장 민감한 정보에 대한 해외 액세스를 방지하면서 국내 거래를 위한 토대를 마련합니다.

국영 중국 인터넷 정보 센터(China Internet Information Center)는 이달 “많은 인터넷 서비스 플랫폼에서 얻은 사용자 데이터는 공공 자원이며 국가 통합 계층적 감독 시스템에 포함되어야 한다”고 말했다.

다섯 번째 요소

국가 통제 데이터 시장에 대한 계획은 수년 동안 진행되었습니다.

2017년 비공개 회의에서 시진핑(習近平) 국가주석은 정책 입안자들에게 글로벌 데이터 거버넌스를 조사하고 "데이터에 대한 소유권 및 재산권 보호 권리를 공개, 거래 및 확인"하기 위한 "중국 계획을 제안"할 것을 촉구했습니다.

이 프로젝트는 2020년 XNUMX월 국무원 문서에서 데이터가 국가 경제 자원 측면에서 노동, 기술, 토지 및 자본과 동등한 다섯 번째 "생산 요소"가 될 것이라고 선언하면서 대폭 강화되었습니다.

그 뒤를 이어 데이터 보안법(Data Security Law) 초안이 제정되었습니다. 빅 데이터.

싱크탱크인 New America의 사이버 정책 펠로우인 Samm Sacks는 "그들은 여기에서 XNUMX방향 체스를 하고 있습니다."라고 말했습니다.

“단순한 국가 안보 정책이 아니라 '경제적 관점에서 데이터에서 나오는 가치를 실제로 어떻게 활용할 것인가'라는 훨씬 더 신중한 계획입니다."

국무원이 XNUMX월에 발표한 디지털 경제 발전 계획은 "실험 단계의 데이터 시장"에 대한 XNUMX개 부분 계획을 제시하고 당국에 인터넷 플랫폼의 "경제 감독을 시행하고 강화"할 것을 요구합니다.

광둥성은 지난주 국제 송금을 위한 세관 허브를 포함하여 데이터 이동을 감독하고 거래하기 위해 연말까지 이러한 플랫폼을 출시할 계획이라고 발표했습니다.

'야만적인' 성장

전 세계적으로 정부는 광범위한 사용자 데이터 수집을 기반으로 인터넷 플랫폼과 그 강력한 권한을 관리하는 방법을 놓고 씨름해 왔습니다.

민간 기업에 대해 엄격한 통제를 가하는 중국에서는 원칙적으로 이러한 노력이 더 간단합니다.

Sacks는 "정부는 오랫동안 이러한 사설 플랫폼이 전략적 자산으로 보유한 데이터에 대한 통제권을 되찾기를 원했고, Didi는 IPO에 대한 준비가 되지 않은 이러한 중요한 이해 관계자를 무시했기 때문에 완벽한 기회를 제공했습니다."라고 말했습니다.

그러나 중국의 노력에는 위험이 따른다고 Sacks는 말했습니다.

"국가 핵심 데이터"로 간주될 수 있는 것에 대한 데이터 법률의 광범위한 정의가 모호하여 기업, 고객 및 투자자에게 불확실성을 가중시킵니다.

한 중국 기술 주가 지수는 반경쟁 관행에서 데이터 보안에 이르는 광범위한 규제 단속으로 올해 초 고점에서 40% 하락했습니다.

“그들은 베이징이 해당 데이터를 가지고 있는 것을 경계하는 고객의 신뢰를 훼손하고 있습니다. 이는 궁극적으로 이들 회사가 진정한 글로벌 플레이어가 되고 중국의 폐쇄된 시스템 밖에서 성공하는 것을 더 어렵게 만들 것입니다.”라고 Sacks가 말했습니다.

중국 내에서 데이터를 수집하는 외국 기업은 데이터를 해외로 전송할 때 동일한 보안 검토를 받아야 합니다.

Zhejiang University의 Fang Xingdong 교수는 최근 국영 글로벌 타임즈에 기고한 사설에서 "중국 인터넷 기업은 과거의 야만적인 성장이라는 안락한 지대에서 벗어나 중국의 새로운 제도적 환경에 적응해야 합니다."라고 말했습니다.

(Cate Cadell의 보고, Tony Munroe 및 Kim Coghill의 편집)

이미지 크레디트 : Reuters

PlatoAi. Web3 재창조. 데이터 인텔리전스 증폭.
액세스하려면 여기를 클릭하십시오.

출처: https://datafloq.com/read/analysis-beyond-security-crackdown-beijing-charts-state-controlled-data-market/16466

빅 데이터

최대 가능성 추정 - 종합 가이드

게재

on

이 기사는 데이터 과학 Blogathon

소개

이 가이드의 목적은 아마도 통계에서 가장 중요한 개념인 최대 가능성 추정의 개념을 탐구하는 것입니다. 데이터 과학 이면의 수학에 익숙해지는 데 관심이 있다면 최대 가능성 추정을 놓칠 수 없습니다. 대부분의 통계학자에게 이것은 통계가 그 힘을 많이 잃을 수 있는 분야의 필수 불가결한 것과 같습니다.

최대 가능성 추정이란 무엇입니까

최대 가능성 추정은 무엇입니까? 이 질문에 완전히 답하기 전에 많은 개념을 이해해야 합니다. 현재로서는 직관적으로 다음과 같이 생각할 수 있습니다.

분포를 특성화하는 다양한 매개변수에 대한 추정치를 찾기 위해 데이터를 사용하는 프로세스입니다.

더 잘 이해하기 위해 통계학자의 입장으로 들어가 보겠습니다. 통계학자인 우리의 주요 업무는 제공된 데이터를 분석하는 것입니다. 당연히 가장 먼저 해야 할 일은 데이터를 얻은 분포를 식별하는 것입니다. 다음으로 데이터를 사용하여 분포의 매개변수를 찾아야 합니다. 모수는 분포의 수치적 특성입니다. 정규 분포에는 평균(μ)과 분산(σ)이 있습니다.2) 매개변수로. 이항 분포는 시행 횟수(n)와 성공 확률(p)을 매개변수로 사용합니다. 감마 분포는 모양(k)과 척도(θ)를 매개변수로 가집니다. 지수 분포는 매개변수로 역평균(λ)을 갖습니다. 목록은 계속됩니다. 이러한 매개변수 또는 수치적 특성은 분포의 크기, 모양, 퍼짐 및 기타 속성을 이해하는 데 중요합니다. 우리가 가지고 있는 데이터는 대부분 무작위로 생성되기 때문에 분포를 특징짓는 매개변수의 실제 값을 모르는 경우가 많습니다.

그때가 바로 추정기가 개입할 때입니다. 추정기는 관심 있는 매개변수의 대략적인 값을 제공하는 데이터의 함수와 같습니다. 우리 대부분은 몇 가지 일반적인 추정기에 익숙할 것입니다. 예를 들어, 가장 자주 사용되는 추정기인 표본 평균 추정기가 있습니다. 이것은 우리 관찰의 평균을 취하여 계산되며 분포의 평균을 나타내는 매개변수를 추정하려고 할 때 매우 편리합니다(예: 정규 분포의 경우 매개변수 µ). 또 다른 일반적인 추정기는 우리 관찰의 분산으로 계산되고 분포의 분산을 나타내는 모수(예: 모수 σ2 정규 분포의 경우). 매개변수가 나타내는 수치적 특성을 기반으로 매개변수에 대한 추정기를 쉽게 구성할 수 있다고 생각하고 싶을 수 있습니다. 예를 들어, 모수가 분포의 평균일 때마다 표본 평균 추정기를 사용하십시오. 또는 분포 모드를 추정하려는 경우 샘플 모드 추정기를 사용하십시오. 이들은 종종 자연 추정량이라고 합니다. 그러나 이 접근 방식에는 두 가지 문제가 있습니다.

1) 상황이 항상 그렇게 간단하지는 않습니다. 때로는 일반적인 수치적 특성과 간단한 일대일 대응 관계가 없는 매개변수 추정과 관련된 문제가 발생할 수 있습니다. 예를 들어 다음과 같은 분포를 제공합니다.

예시 배포 | 최대 가능성 추정

위의 방정식은 scale=1인 Pareto 분포의 확률 밀도 함수를 보여줍니다. 분포의 수치적 특성은 모수의 범위에 따라 달라지기 때문에 단순 추정기로 분포의 모수 θ를 추정하는 것은 쉽지 않다. 예를 들어, 위 분포의 평균은 다음과 같이 표현됩니다.

평균 | 최대 가능성 추정

이것은 무한히 가능한 정교한 통계 분포에서 선택한 하나의 예일 뿐입니다. (나중에 Maximum Likelihood Estimation을 사용하여 위 분포의 매개변수 θ에 대한 적절한 추정치를 찾는 방법을 볼 것입니다.)

2) 단순하다고 해도 자연추정자가 최선일 것이라는 보장은 없다. 때로는 다른 추정자가 데이터를 기반으로 더 나은 추정치를 제공합니다. 8에서th 이 기사의 섹션에서는 실수 집합에 대한 MLE를 계산하고 그 정확도를 확인합니다.

이 기사에서는 최대 가능도 추정기에 초점을 맞출 것입니다. 이 추정은 최대 가능도 추정기 또는 MLE라고 하는 추정기의 전체 클래스를 제공하는 추정 프로세스입니다. MLE는 종종 구성할 수 있는 가장 강력한 추정기 클래스로 간주됩니다. 다음과 같은 몇 가지 질문이 있을 수 있습니다. MLE는 어떻게 생겼습니까? 어떻게 찾을 수 있습니까? 그들은 정말 좋은가?

MLE의 마법과 신비로운 영역으로의 여행을 시작해 봅시다.

사전 요구 사항 :

1) 확률: 확률 변수, 평균, 분산 및 확률 분포에 대한 기본 아이디어. 이러한 아이디어에 익숙하지 않은 경우 '임의 변수 이해'에 대한 내 기사 중 하나를 읽을 수 있습니다. 여기.

2) 수학: 미적분 및 선형 대수학의 예비 지식; 편도함수를 사용하여 간단한 볼록 최적화 문제를 해결하는 능력; 그라디언트 계산.

3) 열정: 마지막으로, 열정 없이 무언가에 대해 읽는 것은 배우지 않고 아는 것과 같습니다. 진정한 학습은 가르치는 주제와 개념에 대한 열정이 있을 때 옵니다.

내용의 표

1) 통계 모델링의 기초

2) 총 변동 거리

3) 쿨백-라이블러 발산

4) 최대 우도 추정기 도출

5) 우도함수의 이해와 계산

6) XNUMX차원 매개변수에 대한 최대 가능성 추정기 계산

7) 다차원 매개변수에 대한 최대 가능성 추정기 계산

8) 파레토 문제의 신비화하기

최대 가능성 추정을 위한 통계 모델링의 기초

통계 모델링은 우리가 직면한 문제에 대한 단순화된 모델을 만드는 프로세스입니다. 우리에게 그것은 우리가 진실이나 현실을 포착하기 위해(즉, 그 수치적 특성을 이해하기 위해) 관찰 가능한 데이터를 사용하는 것입니다. 물론 완전한 진실을 포착하거나 이해하는 것은 불가능합니다. 그래서 최대한 현실을 파악하려고 합니다.

일반적으로 무작위 실험의 통계 모델은 다음 쌍입니다.

무작위 실험 | 최대 가능성 추정

새로운 변수가 많이 있습니다! 하나씩 이해해 봅시다.

1) E는 실험의 표본 공간을 나타냅니다. 실험이란 우리가 수집한 데이터, 즉 관찰 가능한 데이터를 의미합니다. 따라서 E는 데이터가 취할 수 있는 값의 범위입니다(할당된 분포를 기반으로 함).

2) ℙθ E에 대한 확률 측정 계열을 나타냅니다. 즉, 데이터에 할당한 확률 분포(관측값 기반)를 나타냅니다.

3) θ는 분포 ℙ를 특징짓는 미지의 매개변수 집합을 나타냅니다.θ. 우리가 추정하고자 하는 모든 수치적 특징은 θ로 표현됩니다. 지금은 θ를 추정하려는 단일 매개변수로 생각하는 것으로 충분합니다. 나중에 다차원 매개변수를 처리하는 방법을 살펴보겠습니다.

4) Θ는 매개변수 공간, 즉 매개변수 θ가 취할 수 있는 모든 가능한 값의 범위 또는 집합을 나타냅니다.

2가지 예를 들어보겠습니다.

A) 베르누이 분포의 경우: X가 베르누이 확률 변수라면 X는 2과 0의 두 가지 가능한 값만 취할 수 있다는 것을 알고 있습니다. 따라서 표본 공간 E는 집합 {1, 0}입니다. 베르누이 확률 분포는 Ber(p)로 표시되며, 여기서 p는 평균 또는 성공 확률을 나타내는 베르누이 매개변수입니다. 확률 측정이므로 p는 항상 1과 0 사이입니다. 따라서 Θ = [1, 0]입니다. 이 모든 것을 종합하면 베르누이 분포에 대한 다음 통계 모델을 얻습니다.

베르누이 유통 | 최대 가능성 추정

B) 지수 분포의 경우: X가 지수 확률 변수인 경우 X는 양의 실수 값을 취할 수 있음을 알고 있습니다. 따라서 표본 공간 E는 [0, ∞)입니다. 지수 확률 분포는 Exp(λ)로 표시됩니다. 여기서 λ는 지수 매개변수로 비율(여기서는 역평균)을 나타냅니다. X는 항상 양수이므로 기대값은 항상 양수이므로 역평균 또는 λ는 양수입니다. 따라서 Θ = (0, ∞)입니다. 이 모든 것을 종합하면 지수 분포에 대한 다음 통계 모델을 얻을 수 있습니다.

지수 분포

여러분 모두가 우리 데이터에 대한 공식 통계 모델을 만드는 방법을 제대로 이해하기를 바랍니다. 이 아이디어의 대부분은 공식적인 정의를 소개하고 특정 예를 살펴볼 때만 사용됩니다. MLE를 구축하는 과정에 익숙해지면 이 모든 과정을 거칠 필요가 없습니다.

표기법에 대한 참고 사항: 일반적으로 추정기에 대한 표기법은 우리가 추정하려는 매개변수에 대한 모자입니다. 즉, θ가 추정하려는 매개변수인 경우 θ에 대한 추정기는 θ-hat으로 표시됩니다. 우리는 가이드 전체에서 추정기와 추정(추정자가 제공하는 값)이라는 용어를 같은 의미로 사용할 것입니다.

다음 섹션으로 진행하기 전에 이 문서 전체에서 식별 가능성이라는 중요한 가정을 논의하는 것이 중요합니다.

식별 가능성은 매개변수의 다른 값(모수 공간 Θ에서)이 다른 확률 분포를 생성해야 함을 의미합니다. 즉, 매개변수의 두 가지 다른 값(θ & θ')에 대해 두 개의 다른 분포(ℙ)가 있어야 합니다. θ & ℙ θ’). 그건,

확률

마찬가지로

표기법

최대 가능성 추정을 위한 총 변동 거리

여기에서 우리는 두 확률 분포 사이의 거리를 계산하는 아이디어를 탐구할 것입니다. 지수 분포 및 균일 분포와 같이 서로 다른 계열의 두 분포 또는 같은 계열의 두 분포가 있을 수 있지만 Ber(0.2) 및 Ber(0.8)과 같이 매개변수가 다릅니다. 거리의 개념은 통계 및 기계 학습에서 일반적으로 사용됩니다. 데이터 점 사이의 거리, 초평면에서 점까지의 거리, 두 평면 사이의 거리 등을 찾습니다.

두 확률 분포 사이의 거리를 어떻게 계산할 수 있습니까? 통계학자가 가장 일반적으로 사용하는 메트릭 중 하나는 전체 변동(TV) 거리로, 이는 표본 공간 E의 하위 집합에 대한 두 확률 분포 간의 최악의 편차를 측정합니다.

수학적으로 우리는
두 분포 ℙ와 ℚ 사이의 총 변동 거리를 다음과 같이 정의합니다.
다음과 같습니다 :

총 변동 거리 | 최대 가능성 추정

직관적으로 두 분포 ℙ 및 ℚ 간의 총 변동 거리는 해당 분포가 정의된 표본 공간에서 하위 집합에 대해 계산된 확률의 최대 차이를 나타냅니다. 더 잘 이해하기 위해 확률 변수 X와 Y를 각각 ℙ와 ℚ에 할당합시다. E의 부분집합인 모든 A에 대해 ℙ(A)와 ℚ(A)를 찾았습니다. 이는 X와 Y가 A에서 값을 취할 확률을 나타냅니다. 모든 A와 그들을 비교하십시오. 최대 절대 차이는 총 변동 거리입니다. 예를 들어 보겠습니다.

확률 질량 함수가 다음과 같은 경우 ℙ와 ℚ 사이의 총 변동 거리를 계산합니다.

확률 질량 분포

ℙ, ℚ에 해당하는 확률변수의 관측값은 1과 2에 대해서만 정의되므로 표본공간은 E = {1, 2}이다. 가능한 하위 집합은 무엇입니까? 가능한 하위 집합은 {3}, {1} 및 {2, 1}입니다. (우리는 항상 null 집합을 무시할 수 있습니다). 가능한 모든 부분 집합 A에 대해 ℙ(A)와 ℚ(A)의 절대 차이를 계산해 보겠습니다. 

ℙ(A)와 ℚ(A)의 절대차

따라서 다음과 같이 TV 거리를 계산할 수 있습니다.

TV 거리 계산

그게 다야 이제 Exp(1)과 Exp(2) 분포 사이의 TV 거리를 계산하라는 요청을 받았다고 가정합니다. 위의 방법을 사용하여 그들 사이의 TV 거리를 찾을 수 있습니까? 확실히! 지수 분포는 E = [0, ∞)입니다. E의 부분 집합은 무한합니다. 각 부분 집합에 대해 ℙ(A) 및 ℚ(A)를 찾을 수 없습니다. 이러한 상황을 처리하기 위해 ℙ와 ℚ가 이산 분포인지 연속 분포인지에 따라 다르게 정의되는 TV 거리 계산을 위한 더 간단한 분석 공식이 있습니다.

A) 개별 케이스의 경우,

ℙ 및 ℚ가 확률 질량 함수 p(x) 및 q(x) 및 표본 공간 E를 갖는 이산 분포인 경우 다음 방정식을 사용하여 이들 사이의 TV 거리를 계산할 수 있습니다.

디스크리트 케이스 | 최대 가능성 추정

위의 공식을 사용하여 ℙ=Ber(α)와 ℚ=Ber(β) 사이의 TV 거리를 계산해 보겠습니다. 계산은 다음과 같습니다.

E = {0,1}입니다. 베르누이 확률 변수를 다루고 있기 때문입니다.

베르누이 분포의 TV 거리

바로 가기 공식을 사용하여 다음을 얻습니다.

지름길 공식 | 최대 가능성 추정

그게 더 깔끔해! 이제 계속되는 경우에 대해 이야기해 보겠습니다.

B) 연속적인 경우,

ℙ 및 ℚ가 확률 밀도 함수 p(x) 및 q(x) 및 표본 공간 E를 갖는 연속 분포인 경우 다음 방정식을 사용하여 이들 사이의 TV 거리를 계산할 수 있습니다.

연속 케이스 | 최대 가능성 추정

위의 공식을 사용하여 ℙ=Exp(1)와 ℚ=Unif[0,1](0과 1 사이의 균일 분포) 사이의 TV 거리를 계산해 보겠습니다. 계산은 다음과 같습니다.

균일 분포를 위한 TV 거리

위의 표시기 함수 𝕀를 사용했는데, 중괄호 안의 조건이 충족되면 값 1을, 그렇지 않으면 0을 취합니다. 지표 함수를 사용하지 않고 확률 밀도 함수를 다음과 같이 설명할 수도 있습니다.

PDF | 최대 가능성 추정

표시 기능은 계산을 더 깔끔하게 보이게 하고 전체 실제 라인을 확률 분포의 표본 공간으로 취급할 수 있게 합니다.

바로 가기 공식을 사용하여 다음을 얻습니다.

지름길 공식을 사용하여 | 최대 가능성 추정

따라서 필요한 값을 얻었습니다. (해석 방정식 없이 이 계산을 수행하는 것은 상상조차 불가능해 보입니다).

이제 Total Variation Distance의 몇 가지 수학적 속성을 볼 것입니다.

1) 대칭:

대칭

2) 명확성:

확실성 | 최대 가능성 추정

3) 범위 :

범위 | 최대 가능성 추정

4) 삼각형 부등식:

삼각형 부등식 | 최대 가능성 추정

이것으로 TV 거리에 대한 논의가 거의 끝났습니다. 이 우회의 이유에 대해 궁금해 할 것입니다. 우리는 MLE와 논의를 시작했고 TV 거리에 대한 이야기를 계속했습니다. 그들 사이의 연결은 무엇입니까? 그들은 서로 관련이 있습니까? 글쎄요, 기술적으로 아닙니다. MLE는 TV 거리를 기반으로 하는 것이 아니라 Kullback-Leibler divergence라고 하는 것을 기반으로 합니다. 이에 대해서는 다음 섹션에서 살펴보겠습니다. 그러나 TV 거리에 대한 이해는 MLE의 개념을 이해하는 데 여전히 중요합니다.

이제 이 가이드의 가장 중요하고 까다로운 부분입니다. TV 거리를 기반으로 추정기를 구성해 보겠습니다. 우리 어떻게 할까?

우리는 앞서 논의한 TV 거리의 속성 중 하나를 사용할 것입니다. 이 속성은 두 분포가 같을 때 TV 거리가 가까워지는 값을 알려줍니다. 당신은 그것을 올바르게 추측했습니다. 그것은 확실성입니다. 다음 두 분포(동일한 계열이지만 매개변수가 다름)를 고려합니다.

θ 그리고 ℙθ*여기서 θ는 추정하려는 매개변수이고 θ*는 매개변수 θ의 실제 값이고 ℙ는 관측 가능한 데이터의 확률 분포입니다. 확실성에서 우리는,

p에서 ~p까지

(위의 방정식이 식별 가능성을 어떻게 사용했는지 주목하십시오). TV 거리의 최소값이 0이라는 것도 배웠기 때문에 다음과 같이 말할 수도 있습니다.

최소 거리 | 최대 가능성 추정

그래픽으로 다음과 같이 나타낼 수 있습니다.

그래픽 표현 | 최대 가능성 추정

작성자 별 이미지

(파란색 곡선은 범위가 0과 1 사이이고 θ*에서 최소값 = 0에 도달하는 모든 함수일 수 있습니다.) TV(ℙ) 함수를 계산하는 것은 불가능합니다.θ, ℙθ*) 실제 매개변수 값 θ*가 없는 경우. 만약 우리가 TV 거리를 추정할 수 있고 우리의 추정기가 ℙθ 그리고 ℙθ*?!

추정에서 우리의 목표는 θ-hat이 실제 매개변수 θ*에 가깝도록 매개변수 θ에 대한 추정기 θ-hat을 찾는 것입니다. 분포 ℙ 사이의 거리를 최소화하는 관점에서 볼 수 있습니다.θ 그리고 ℙθ*. 그리고 그 때 TV 거리가 그림에 나타납니다. θ = θ-hat일 때 추정기 θ-hat을 원합니다. 예상 θ와 θ*에서 확률 측정 사이의 TV 거리는 최소화됩니다. 즉, θ =θ-hat은 ℙ 사이의 추정된 TV 거리의 최소값이어야 합니다.θ 그리고 ℙθ*. 수학적으로 θ-hat을 다음과 같이 설명할 수 있습니다.

아르그민

그래픽,

그래픽으로
작성자 별 이미지

우리는 파란색 곡선을 추정할 수 있기를 원합니다(TV(ℙθ, ℙθ*)) 빨간색 곡선(TV(ℙθ, ℙθ*)-모자). 빨간색 곡선을 최소화하는 θ의 값은 파란색 곡선을 최소화하는 θ의 값, 즉 θ*에 가까워야 하는 θ-hat이 됩니다.

이것이 MLE의 기본 아이디어입니다. 우리는 나중에 이 아이디어를 다른 곳에서 사용하고 최대 가능성 추정기를 유도할 것입니다.

그래서 우리는 TV(ℙθ, ℙθ*)-모자, 미적분 도구를 사용하여 최소화하고 추정기를 얻을 수 있습니다. 문제가 정렬되었습니다. 오른쪽? 아니요! 또 다른 문제가 있습니다. TV를 찾는 방법(ℙθ, ℙθ*)-모자? 그리고 그것은 힘든 일입니다. ℙ 사이의 TV 거리를 추정할 수 있는 쉬운 방법은 없습니다.θ 그리고 ℙθ*. 그리고 그것이 θ-hat을 찾기 위해 TV 거리를 추정하는 이 모든 아이디어가 실패한 이유입니다. 지금 무엇을 할 수 있습니까?

아마도 TV 거리와 유사하고 명확성을 따르는 또 다른 함수, 가장 중요하게 추정할 수 있는 함수를 찾을 수 있습니다. 그리고 그것은 우리를 다음 섹션인 Kullback-Leibler Divergence로 이끕니다.

Kullback-Leibler 발산

TV 거리와 같이 상대 엔트로피라고도 하는 KL 발산은 ℙ 및 ℚ가 이산 분포인지 연속 분포인지에 따라 다르게 정의됩니다.

A) 개별 케이스의 경우,

ℙ 및 ℚ가 확률 질량 함수 p(x) 및 q(x)와 표본 공간 E를 갖는 이산 분포인 경우 다음 방정식을 사용하여 이들 사이의 KL 발산을 계산할 수 있습니다.

이산 케이스에 대한 KL 발산 | 최대 가능성 추정

방정식은 확실히 TV 거리에 대한 방정식보다 더 복잡해 보이지만 추정하기에 더 적합합니다. KL 발산의 속성에 대해 이야기할 때 이 섹션의 뒷부분에서 이를 볼 것입니다.

위의 공식을 사용하여 ℙ=Ber(α)와 ℚ=Ber(β) 사이의 KL 발산을 계산해 보겠습니다. 계산은 다음과 같습니다.

베르누이를 위한 KL | 최대 가능성 추정

공식을 사용하여 다음을 얻습니다.

방정식 | 최대 가능성 추정

그게 다야 계산이 더 어렵지만 나중에 그 유용성을 보게 될 것입니다.

B) 연속적인 경우,

ℙ 및 ℚ가 확률 밀도 함수 p(x) 및 q(x)와 표본 공간 E를 갖는 연속 분포인 경우 다음 방정식을 사용하여 이들 사이의 KL 발산을 계산할 수 있습니다.

연속 KL | 최대 가능성 추정

위의 공식을 사용하여 ℙ=Exp(α)와 ℚ=Exp(β) 사이의 KL 발산을 계산해 보겠습니다. 계산은 다음과 같습니다.

지수의 경우 KL | 최대 가능성 추정

지수 분포를 다루기 때문에 표본 공간 E는 [0, ∞)입니다. 공식을 사용하여 다음을 얻습니다.

최종 공식 | 최대 가능성 추정

걱정하지 마십시오. 위의 적분을 풀기 위해 부품별 긴 적분을 하지 않을 것입니다. Wolfram이나 적분 계산기를 사용하여 풀면 다음과 같은 결과가 나옵니다.

적분 결과 | 최대 가능성 추정

그리고 우리는 끝났습니다. 이것이 두 분포 간의 KL 발산을 계산하는 방법입니다. 더 연습하고 싶다면 ℙ=N(α, 1)과 ℚ=N(β, 1)(다른 평균과 같은 분산을 갖는 정규 분포) 사이의 KL 발산을 계산해 보십시오. 댓글 섹션에서 답변을 알려주세요.

이제 우리는 KL 발산의 속성에 대해 논의할 것입니다. KL 발산은 거리가 아니라 발산이기 때문에 이러한 속성은 TV 거리와 다를 것입니다. 문구에 주의하세요. 대칭 또는 삼각 부등식과 같은 속성이 유지될 것으로 기대하지 않을 수 있지만 추정기를 구성할 수 있도록 명확성이 유지될 것으로 기대합니다. 또한 다음 섹션에서는 연속 분포에 대해 KL 발산의 정의만 사용할 것입니다. 이산 분포의 경우 합계를 적분으로 바꾸면 절차가 동일하게 유지됩니다. 다음은 KL 다이버전스의 속성입니다.

1) 비대칭(일반적으로):

비대칭 | 최대 가능성 추정

2) 명확성:

Kl 확실성 | 최대 가능성 추정

3) 범위 :

KL 레인지

(예, KL 발산은 확률이나 확률의 차이를 나타내지 않기 때문에 XNUMX보다 클 수 있습니다. KL 발산은 또한 특정 조건에서 두 균일 분포 사이의 KL 발산과 같은 일부 매우 일반적인 분포에 대해 무한대로 진행됩니다.)

4) 삼각형 부등식 없음(일반적으로):

Kl 트레인 부등식 없음 | 최대 가능성 추정

5) 추정 가능:

추정 가능한 KL | 최대 가능성 추정

기대의 속성을 상기하십시오. X가 확률 밀도 함수 f(x)와 표본 공간 E를 갖는 확률 변수인 경우

PDF | 최대 가능성 추정

x를 x의 함수, 예를 들어 g(x)로 바꾸면 다음을 얻습니다.

X를 대체

우리는 KL 발산에 대한 표현에서 이것을 사용했습니다. 확률 밀도 함수는 p(x)이고 g(x)는 log(p(x)/q(x))입니다. 또한 p(x)에서 기대치를 계산하고 있음을 보여주기 위해 첨자 x~ℙ를 넣었습니다. 그래서 우리는,

다음 방정식

이것이 4절에서 KL 발산을 추정할 수 있게 하는 방법을 볼 것입니다. 이제 2절 끝에서 논의된 아이디어를 사용하여 확률 분포 ℙ의 매개변수 θ에 대한 추정량 θ-hat을 찾는 문제를 해결해 보겠습니다.θ:

다음 두 분포(동일한 계열이지만 매개변수가 다름)를 고려합니다.

θ 그리고 ℙθ*여기서 θ는 추정하려는 매개변수이고 θ*는 매개변수 θ의 실제 값이고 ℙ는 관측 가능한 데이터의 확률 분포입니다.

확실성에서 우리는,

정의에서 | 최대 가능성 추정

(위의 방정식이 식별 가능성을 어떻게 사용했는지 주목하십시오). KL 발산의 최소값이 0이라는 것도 배웠으므로 다음과 같이 말할 수 있습니다.

최소 KL 다이버전스 | 최대 가능성 추정

그래픽으로 다음과 같이 나타낼 수 있습니다.

그래프 KL 발산 | 최대 가능성 추정
작성자 별 이미지

(파란색 곡선은 범위가 0에서 무한대이고 θ*에서 최소값 = 0에 도달하는 모든 함수일 수 있습니다.) 함수 KL(ℙθ* || ℙθ) 실제 매개변수 값 θ*가 없는 경우. 그래서, 우리는 그것을 추정하고 우리의 추정기 θ-hat을 ℙθ* 그리고 ℙθ.

수학적으로 

수학적으로

그리고 그 추정기는 정확히 최대 우도 추정기입니다. 우리는 다음 섹션에서 위의 표현을 단순화하고 그 용어 뒤에 있는 추론을 이해할 것입니다.

그래픽,

그래픽으로

작성자 별 이미지

파란색 곡선(KL(ℙ)을 추정할 수 있기를 원합니다.θ* || ℙθ)) 빨간색 곡선(KL(ℙθ* || ℙθ)-모자). 빨간색 곡선을 최소화하는 θ 값은 파란색 곡선을 최소화하는 θ 값, 즉 θ*에 가까워야 하는 θ-hat이 됩니다. 그리고 가장 좋은 점은 TV 거리와 달리 KL 발산을 추정할 수 있고 최소값을 θ에 대한 추정기로 사용할 수 있다는 것입니다.

이것이 우리가 MLE를 얻는 방법입니다.

최대 가능성 추정을 위한 추정기 도출

이전 섹션에서 MLE θ-hat이 다음과 같이 계산됨을 얻었습니다.

MLE
식 1

우리는 분포 ℙ를 고려했습니다.θ 그리고 ℙθ*여기서 θ는 추정하려는 매개변수이고 θ*는 매개변수 θ의 실제 값이고 ℙ는 관측 가능한 데이터의 확률 분포입니다. 확률 분포 함수(분포의 특성에 따라 밀도 또는 질량이 될 수 있음)를 p로 설정합니다.θ(x) 및 pθ*(NS).

(두 분포가 같은 ℙ군에 속하기 때문에 분포 함수를 나타내기 위해 동일한 문자 p를 사용했음을 주목하십시오. 또한 매개변수는 분포 함수를 계산하는 매개변수를 구별하기 위해 아래 첨자를 사용했습니다.)

우리는 또한 KL 다이버전스를 기대값으로 표현하는 과정을 보여주었습니다:

KL 다이버전스 | 최대 가능성 추정

여기서 c = Ex~θ*[로그(pθ*(x))]는 θ와 무관하므로 상수로 취급됩니다. (θ*는 상수값). θ에 대한 KL 발산을 최소화하기를 원하기 때문에 이 양이 전혀 필요하지 않습니다.

그래서 우리는 이렇게 말할 수 있습니다.

KL 모자
식 2

이것이 우리에게 어떻게 유용합니까? 큰 수의 법칙이 우리에게 주는 것을 기억하십시오. 표본 크기(관측 수)가 커질수록 관측치의 표본 평균은 기본 분포의 실제 평균 또는 기대치로 수렴됩니다. 즉, 만약 Y1, 그리고2, ..., 예n 독립적이고 동일하게 분포된 확률 변수인 경우

n 확률 변수

Y를 대체할 수 있습니다.i 임의의 변수의 함수로 log(pθ(NS)). 그래서, 우리는 얻는다, 

1 / N

따라서 데이터를 사용하여 1/n*sum(log(pθ(x)) E에 대한 추정기로 사용x~θ*[로그(pθ(NS))]

따라서 우리는, 

추정기 | 최대 가능성 추정

이를 방정식 2에 대입하면 다음을 얻습니다.

방정식 2

마지막으로 KL 발산에 대한 추정치를 얻었습니다. 최대 우도 추정기를 얻기 위해 방정식 1에서 이것을 대체할 수 있습니다.

MLE

(상수를 추가하면 함수를 위아래로만 이동할 수 있으며 함수 최소화에는 영향을 미치지 않습니다.)

(f(x)의 음수 최소값을 찾는 것은 f(x)의 최대값을 찾는 것과 같습니다.)

최대값 | 최대 가능성 추정

(상수에 의한 함수의 곱셈은 최대화에 영향을 미치지 않습니다)

argmax

(log(x)는 증가 함수이고 g(f(x))의 최대화 함수는 g가 증가 함수인 경우 f(x)의 최대화 함수입니다.

따라서 최대 우도 추정기 θMLE-hat(표기법 변경)은 수학적으로 다음과 같이 정의됩니다.

최대

П(pθ(xi))를 우도 함수라고 합니다. 따라서 MLE는 우도 함수의 최대화인 추정량입니다. 따라서 최대 가능성 추정기라고 합니다. 다음 섹션에서 우도 함수를 더 자세히 이해할 것입니다.

최대 가능성 추정 함수의 이해 및 계산

우도 함수는 다음과 같이 정의됩니다.

A) 개별 케이스의 경우: 만약 X1, X2, …, NSn 통계 모델(E, {ℙθ}θΘ), 여기서 E는 이산 표본 공간이고 우도 함수는 다음과 같이 정의됩니다.

가능성 함수 | 최대 가능성 추정

또한, 만약 X1, X2, …, NSn 독립적이며,

자세한

확률 질량 함수의 정의에 따르면 X1, X2, …, NSn 확률 질량 함수 pθ(x) 그럼, ℙθ[Xi=xi] = 피θ(xi). 따라서 다음이 있습니다.

PMF | 최대 가능성 추정

B) 연속적인 경우: 이전과 동일합니다. 확률 질량 함수를 확률 밀도 함수로 교체하기만 하면 됩니다. 만약 X1, X2, …, NSn 통계 모델(E, {ℙθ}θΘ), 여기서 E는 연속 표본 공간인 경우 우도 함수는 다음과 같이 정의됩니다.

연속적인

어디, 피θ(xi)는 X가 다음과 같은 분포의 확률 밀도 함수입니다.1, X2, …, NSn 따르다.

우도 함수를 더 잘 이해하기 위해 몇 가지 예를 들어보겠습니다.

I) 베르누이 분포:

모델:

BD | 최대 가능성 추정

매개변수: θ=p

확률 질량 함수:

PMF | 최대 가능성 추정

가능성 함수:

가능성 함수

II) 포아송 분포:

모델:

포아송 분포

(표본 공간은 모든 정수의 집합입니다)

매개변수: θ=λ

확률 질량 함수:

PMF

가능성 함수:

있을 수 있는 일

III) 지수 분포:

모델:

ED | 최대 가능성 추정

매개변수: θ=λ

확률 밀도 함수:

ED의 PDF

가능성 함수:

가능성 함수

IV) 균일 분포:

확률 밀도 함수는 추정할 매개변수의 값에 따라 달라지는 특정 범위에서만 정의되기 때문에 이것은 또한 매우 흥미로울 것입니다.

모델:

제복

매개변수: θ=α

확률 밀도 함수:

PDF

(x가 매개변수 α와 무관하므로 x가 0보다 커야 하는 부분은 무시할 수 있습니다.)

가능성 함수:

있을 수 있는 일

까다로워 보입니다. 지표 함수의 곱을 어떻게 받아들여야 할까요? 표시기 함수는 2(중괄호의 조건이 충족되는 경우)과 1(중괄호의 조건이 충족되지 않은 경우)의 0개 값만 사용할 수 있음을 기억하십시오. 만약 모든 xi가 중괄호 아래의 조건을 만족하면 표시기 함수의 곱도 XNUMX이 됩니다. 그러나 x 중 하나라도i의 조건을 만족하지 못하면 제품은 2이 됩니다. 따라서 이러한 표시기 함수의 곱 자체는 1개의 값(중괄호 안의 조건이 모든 x에 의해 충족되는 경우)만 취할 수 있는 표시기 함수로 간주될 수 있습니다.i's) 및 0(중괄호 안의 조건이 1 x 이상 충족되지 않는 경우)i). 그러므로,

끝

(모두 xi는 최대{x인 경우에만 α보다 작습니다.i}는 α보다 작음)

이것으로 우도 함수에 대한 논의를 마칩니다. 이 문제들을 재미있게 연습하셨기를 바랍니다!

XNUMX차원 모수에 대한 최대 우도 추정량 계산하기

이 섹션에서는 앞서 계산한 우도 함수를 사용하여 일부 공통 분포에 대한 최대 우도 추정기를 얻습니다. 이 섹션은 주로 XNUMX차 미분 테스트, XNUMX차 미분 테스트 등 최적화 도구 사용에 크게 의존합니다. 우리는 이 섹션에서 매우 복잡한 미적분학으로 들어가지 않을 것이고 우리 자신을 단일 변수 미적분학으로 제한할 것입니다. 다변수 미적분은 다음 섹션에서 사용됩니다.

앞서 우리는 다음과 같이 정의되는 최대 우도 추정기를 얻었습니다.

단일 차원용 MLE

우리는 또한 П(pθ(xi))는 우도 함수였습니다. MLE는 우도 함수를 최대화하는 θ입니다. 따라서 우리의 작업은 매우 간단합니다. 미분을 사용하여 이전에 계산한 가능성 함수를 최대화하기만 하면 됩니다.

참고: 가능성 함수를 구별하는 것이 쉽지 않은 경우가 있습니다. 그래서 우리는 우도 대신 로그 우도를 자주 사용합니다. 로그 함수를 사용하면 악명 높은 제품 및 미분법을 사용하지 않아도 됩니다. log(x)는 증가 함수이기 때문에 로그 우도와 우도의 최대화는 동일합니다.

MLE

예 :

우도 함수를 더 잘 이해하기 위해 몇 가지 예를 들어보겠습니다.

I) 베르누이 분포:

가능성 함수:

MLE

로그 가능성 함수:

MLE

최대 가능성 추정기:

MLE

XNUMX차 도함수의 계산:

(0, 1)의 임계점 계산

임계점
식 6.1

XNUMX차 도함수의 계산:

위의 식에 방정식 6.1을 대입하면 다음을 얻습니다.

따라서 p = 1/n*(sum(xi))는 로그 가능성의 최대화입니다. 그러므로,

MLE는 베르누이 분포에 대한 표본 평균 추정량입니다! 예, 우리가 기사의 시작 부분에서 이야기 한 것입니다. 엄밀한 수학적 공식과 계산을 사용하여 평균과 같은 자연스러운 것이 어떻게 생성될 수 있는지 놀랍지 않습니까!

II) 포아송 분포:

가능성 함수:

로그 가능성 함수:

최대 가능성 추정기:

XNUMX차 도함수의 계산:

(0, ∞)의 임계점 계산

식 6.2

XNUMX차 도함수의 계산:

위의 식에 방정식 6.2을 대입하면 다음을 얻습니다.

따라서 λ = 1/n*(sum(xi))는 로그 가능성의 최대화입니다. 따라서,

다시 표본 평균 추정량입니다!

III) 지수 분포:

가능성 함수:

로그 가능성 함수:

최대 가능성 추정기:

XNUMX차 도함수의 계산:

(0, ∞)의 임계점 계산

식 6.3

XNUMX차 도함수의 계산:

위의 식에 방정식 6.3을 대입하면 다음을 얻습니다.

따라서 λ = (sum(xi))/n은 로그 가능성의 최대화입니다. 그러므로,

IV) 균일 분포:

가능성 함수:

여기서는 log-likelihood 함수를 사용할 필요가 없습니다. 또한 우리는 미적분학 도구를 사용할 필요도 없습니다. 우리는 순수 논리를 사용하여 위의 우도 함수의 최대화를 찾으려고 노력할 것입니다. 우리는 가지고, 

n은 표본 크기를 나타내므로 n은 양수입니다. 따라서 상수 n의 경우 α가 감소함에 따라 가능성이 증가합니다. 우도 함수는 α의 최소값에 대해 최대화됩니다. 최소값은 얼마입니까? 제로가 아닙니다. 중괄호 안의 표현식을 참조하십시오. 

따라서 α의 최소값은 max{xi}. 따라서,

이것으로 최대 가능성 계산에 대한 논의를 마칩니다.
단일 매개변수가 있는 통계 모델용 추정기.

다차원 매개변수에 대한 최대 가능성 추정기 계산

이 섹션에서는 이전에 계산된 우도 함수를 사용하여 XNUMX-모수 모델인 정규 분포에 대한 최대 우도 추정기를 얻을 것입니다. 이 섹션에서는 기울기 계산과 같은 다변수 미적분학의 기본 도구에 익숙해야 합니다. 이러한 도구에 익숙하지 않더라도 걱정하지 마십시오! 수학적 복잡성을 무시하고 계산 이면의 광범위한 개념만 이해하도록 선택할 수 있습니다. 이러한 모든 도구는 최신 계산기를 사용하여 쉽게 수행할 수 있는 다차원 함수를 최적화하는 데만 사용할 것입니다.

이 섹션에서 해결하고자 하는 문제는 두 개의 매개변수를 특징으로 하는 분포에 대한 MLE를 찾는 것입니다. 이와 관련하여 정규 분포가 가장 유명하기 때문에 평균(μ)과 분산(σ2). 프로세스는 다음과 같이 진행됩니다.

통계 모델:

E = (-∞, ∞) 가우스 확률 변수는 실수 라인의 모든 값을 취할 수 있습니다.

θ = (μ, σ2)는 2차원 매개변수로 해석됩니다(직관적으로 2개의 매개변수 세트로 생각하십시오).

Θ = (-∞, ∞) × (0, ∞) 평균(μ)은 실제 선과 분산(σ2)는 항상 양수입니다.

매개변수: θ = (μ, σ2)

확률 밀도 함수:

가능성 함수:

로그 가능성 함수:

이제 위의 다차원 함수를 다음과 같이 최대화합니다.

로그 가능성의 기울기 계산:

로그 가능성의 기울기 | 최대 가능성 추정

기울기를 XNUMX 벡터와 동일하게 설정하면 다음을 얻습니다.

그라디언트 = 0 | 최대 가능성 추정

첫 번째 요소를 비교할 때 다음을 얻습니다.

비교

두 번째 요소를 비교하면 다음을 얻습니다.

n/2n

따라서 우리는 가우스 분포의 매개변수에 대한 최대 우도 추정기를 얻었습니다.

구아시안 분포

분산 추정기는 일반적으로 편향된 표본 분산 추정기라고 합니다.

최대 가능성 추정을 통한 파레토 문제 이해하기

이 가이드의 시작 부분에서 만난 확률 분포 중 하나는 파레토 분포였습니다. Pareto 분포의 모수 θ와 평균 또는 분산과 같은 수치적 특성과 일대일 대응 관계가 없었기 때문에 자연 추정량을 찾을 수 없었습니다. 이제 최대 가능도 추정 도구를 갖추었으므로 이를 사용하여 파레토 분포의 모수 θ에 대한 MLE를 찾아보겠습니다. 파레토 분포에는 다음과 같은 확률 밀도 함수가 있습니다.

그래픽으로 다음과 같이 나타낼 수 있습니다(θ=1의 경우).

파레토 분포
작성자 별 이미지

1. 모델:

(모양 매개변수(θ)는 항상 양수입니다. 샘플 공간은 스케일보다 커야 합니다. 이 경우에는 1입니다.)

2. 매개변수: θ

3. 확률 밀도 함수:

PDF | 최대 가능성 추정

4. 가능성 함수:

최대 가능성 추정

5. 로그 가능성 함수:

로그 가능성 | 최대 가능성 추정

6. 최대 가능성 추정기:

MLE | 최대 가능성 추정

7. XNUMX차 도함수의 계산:

XNUMX차 도함수

8. (0, ∞)의 임계점 계산

계산
식 8.1

9. XNUMX차 도함수의 계산:

이차 미분 | 최대 가능성 추정

위의 식에 방정식 8.1을 대입하면 다음을 얻습니다.

대체 | 최대 가능성 추정

10. 결과:

따라서 θ = n/(sum(log(xi))) 로그 가능도의 최대화입니다. 그러므로,

결과

좀 더 의미 있게 만들기 위해 실수를 몇 개 추가해 보겠습니다. 우리는 R을 사용하여 계산을 할 것입니다.

다음 R 코드를 사용하여 모양 (θ)=scale=50인 파레토 분포에서 다음 1개 숫자 세트를 무작위로 생성했습니다.

install.packages('extremefit') 라이브러리(extremefit) xi<-rpareto(50, 1, 0, 1)

첫 번째 인수(50)는 샘플 크기를 보여줍니다. 두 번째 인수(1)는 형상 매개변수(θ)를 나타냅니다. 세 번째 인수를 무시할 수 있습니다(기본적으로 1으로 설정되는 위치 매개변수를 표시함). 네 번째 인수(1)는 XNUMX로 설정된 scale 매개변수를 보여줍니다. 다음 숫자 세트가 생성되었습니다.

생성된 숫자 | 최대 가능성 추정

작성자 별 이미지

MLE의 성능을 평가해 보겠습니다. MLE가 1에 가까울 것으로 예상하여 좋은 추정량임을 보여야 합니다. 계산:

n=50 S<-sum(log(xi)) MLE<-n/S

출력 : 1.007471

정말 1에 가깝습니다! 실제로 MLE는 훌륭한 일을 하고 있습니다. 계속해서 샘플 크기를 변경하고 다른 샘플에 대한 MLE를 계산해 보십시오. 모양 매개변수를 변경하거나 다른 분포를 실험해 볼 수도 있습니다.

결론

이 기사의 목적은 MLE를 추상적인 기능이 아니라 견고한 논리적 및 개념적 토대 아래에 뿌리를 두고 있는 매혹적인 수학적 구조로 보는 것입니다. 이 가이드를 통해 즐거운 시간을 보내셨기를 바랍니다!

의문 사항이나 제안 사항이 있는 경우 의견란에 답장을 보내주십시오. 통해 저에게 연락 주시기 바랍니다 우편.

내 기사가 마음에 들었고 더 많은 기사를 읽고 싶다면 여기를 방문하십시오. 링크.

참고: 모든 이미지는 작성자가 제작했습니다.

저자에 관하여

저는 현재 싱가포르 국립 대학교(NUS)의 학부 XNUMX학년 학생이며 통계, 데이터 과학, 경제학 및 기계 학습에 깊은 관심을 가지고 있습니다. 저는 다양한 데이터 과학 프로젝트에서 일하는 것을 좋아합니다. 내 프로젝트 중 일부를 보려면 여기를 방문하십시오. 링크.

이 기사에 표시된 미디어는 Analytics Vidhya의 소유가 아니며 작성자의 재량에 따라 사용됩니다.

PlatoAi. Web3 재창조. 데이터 인텔리전스 증폭.
액세스하려면 여기를 클릭하십시오.

출처: https://www.analyticsvidhya.com/blog/2021/09/maximum-likelihood-estimation-a-comprehensive-guide/

계속 읽기

빅 데이터

호주 총리, 청정 에너지 공급망에 집중할 XNUMX개국

게재

on

(로이터) – 미국, 일본, 인도, 호주는 개선을 위해 노력할 것입니다. 보안 스콧 모리슨(Scott Morrison) 호주 총리는 청정 에너지와 같은 핵심 기술에 대한 공급망을 확대하고 글로벌 반도체 부족을 완화한다고 말했습니다.

Quad 국가, 금요일 첫 대면 회담 https://www.reuters.com/world/china/quad-leaders-meet-white-house-amid-shared-china-concerns-2021-09-24 백악관은 워싱턴에서 중요한 기반 시설을 확보하기 위한 파트너십에 합의했다고 밝혔습니다.

Morrison은 회의 후 기자들에게 여기에는 호주의 천연 광물을 연결하는 것이 포함될 것이라고 말했습니다. 제조 그의 정부가 토요일에 발표한 녹취록에 따르면, 미국, 인도, 일본의 최종 사용자와 함께 처리 능력.

호주는 중국을 제외하고 세계 최대의 희토류 공급국이며 니켈, 구리, 코발트와 같은 전기 자동차 배터리에 사용되는 광물의 주요 공급국입니다.

지도자들은 공개적으로 중국을 언급하지 않았지만 중국이 근육을 휘두르려 하는 지역에서 규칙 기반 행동을 반복적으로 주장했습니다. 베이징은 그룹을 "실패할 운명"이라고 비판했다.

다른 쿼드 리더들은 중요한 재료를 공급하는 데 있어 호주의 역할에 대해 감사를 표명했다고 Morrison은 말했습니다.

"중요한 광물에서 호주는 가장 큰 생산국 중 하나이지만 우리는 미래의 기술을 지원하는 중요 공급망에서 더 큰 역할을 할 수 있다고 믿습니다."

호주는 인도-태평양 지역에서 이러한 공급망을 구축하기 위한 로드맵을 개발하는 것을 목표로 내년에 청정 에너지 공급망 정상 회담을 개최할 것이라고 Morrison은 말했습니다.

Quad는 또한 주요 아시아 반도체 생산 허브에서 COVID-19의 부활로 인해 부족이 악화되어 글로벌 자동차 제조업체 및 기타 제조업체가 생산을 줄임에 따라 반도체 공급을 더 잘 확보할 수 있는 방법에 대해 논의했다고 Morrison은 말했습니다.

"이것은 우리가 만들고자 하는 생태계이며 우리는 지역에서 그렇게 하고 싶습니다."라고 그는 말했습니다.

(멜라니에 있는 Melanie Burton의 보고, William Mallard의 편집)

이미지 크레디트 : Reuters

PlatoAi. Web3 재창조. 데이터 인텔리전스 증폭.
액세스하려면 여기를 클릭하십시오.

출처: https://datafloq.com/read/quad-nations-focus-clean-energy-supply-chain-says-australia-pm/18150

계속 읽기

빅 데이터

중국은 화웨이 경영진을 환영하지만 석방된 캐나다인에 대해서는 침묵

게재

on

데이비드 스탠웨이

상하이 (로이터) - 중국 국영 언론은 근거 없는 은행 사기 혐의로 캐나다에서 1,000일 이상 가택 연금된 후 토요일 거대 통신 기업인 화웨이의 최고 재무 책임자인 멍 완저우(Meng Wanzhou)가 "조국"으로 돌아온 것을 환영했습니다.

그러나 그들은 베이징의 명백한 보복 행위로 중국인 구금에서 풀려난 두 캐나다인인 마이클 코브릭(Michael Kovrig)과 마이클 스페이버(Michael Spavor)에 대해 침묵을 지켰습니다.

중국 국영 CCTV는 화웨이가 미국 영공을 피해 북극 상공을 비행하면서 쓴 성명을 보도했다.

멍은 "위대한 조국의 품"에 다가갔을 때 그녀의 눈이 "눈물로 흐려졌다"고 말했다. "강한 조국이 없었다면 지금의 자유도 없었을 것입니다."

멍 부회장은 2018년 XNUMX월 뉴욕 법원이 미국 제재를 위반해 이란에 장비를 판매하려는 화웨이 관련 기업의 시도를 은폐하려 시도했다는 체포영장을 발부한 후 밴쿠버에서 체포됐다.

XNUMX년 이상의 법적 논쟁 끝에 그녀는 마침내 미국 검찰과의 거래를 성사시킨 후 금요일에 캐나다를 떠나 중국으로 돌아갈 수 있었습니다.

멍의 아버지 런정페이가 설립한 화웨이는 성명에서 “멍이 가족과 재회하기 위해 안전하게 집으로 돌아가는 것을 기대한다”고 말했다. 미국의 혐의에 대해 계속 방어할 것이라고 밝혔습니다.

저스틴 트뤼도 총리는 멍이 체포된 지 며칠 만에 중국 당국에 억류된 캐나다인 마이클 코브릭과 마이클 스페이버가 몇 시간 뒤 석방됐다고 밝혔다.

중국 관영 신화통신은 멍의 석방을 “중국 정부의 끊임없는 노력” 덕분이라고 공식적으로 인정했다.

집권 공산당이 후원하는 글로벌 타임즈(Global Times)의 편집장인 후시진은 트위터에 멍 부회장의 “고통스러운 XNUMX년”의 결과로 “국제 관계가 혼란에 빠졌다”고 썼다.

그러면서 “중국인을 자의적으로 구금해서는 안 된다”고 덧붙였다.

그러나 Hu와 다른 언론은 Spavor와 Kovrig의 출시에 대해 언급하지 않았으며 중국의 Twitter와 같은 Weibo 소셜 미디어 플랫폼에 대한 반응은 거의 없었습니다.

외교부는 공개적으로 언급하지 않았다.

중국은 이전에 두 캐나다인의 체포와 구금이 멍 부회장에 대한 범죄인 인도 절차와 관련이 없다고 주장하면서 “인질 외교”에 관여하지 않았다고 주장했다.

Spavor는 Kovrig에 군사 장비 사진을 제공한 혐의로 11월에 XNUMX년형을 선고받았습니다. 코브릭은 여전히 ​​선고를 기다리고 있었다.

(상하이의 David Stanway 보고, 선전의 David Kirton 추가 보고, Clarence Fernandez 및 William Mallard 편집)

이미지 크레디트 : Reuters

PlatoAi. Web3 재창조. 데이터 인텔리전스 증폭.
액세스하려면 여기를 클릭하십시오.

출처: https://datafloq.com/read/china-welcomes-huawei-executive-home-silent-freed-canadians/18149

계속 읽기

빅 데이터

브라질 통신 규제 당국은 월요일까지 5G 경매 규칙을 발표할 것이라고 밝혔습니다.

게재

on

상파울루 (로이터) – 브라질 정부는 50세대(9.35G) 모바일 스펙트럼의 계획된 경매에서 약 5억 헤알(XNUMX억 XNUMX만 달러)의 입찰가를 유치할 것으로 예상하고 경매 규칙이 월요일까지 발표될 것이라고 통신 규제 기관인 Anatel Superintendent Abraão Balbino가 말했습니다. 금요일에.

Balbino는 예상되는 자본 지출액이 40억 헤알로 입찰에서 회사의 예상 자본 지출 가치가 할인될 것이라고 말했습니다.

($ 1 = 5.3471 레알)

(알베르토 알레기의 보고)

이미지 크레디트 : Reuters

PlatoAi. Web3 재창조. 데이터 인텔리전스 증폭.
액세스하려면 여기를 클릭하십시오.

출처: https://datafloq.com/read/brazil-telecoms-regulator-says-5g-auction-rules-published-monday/18144

계속 읽기
에스 포트4 일 전

다음은 CS:GO의 Operation Riptide 스킨입니다.

에스 포트3 일 전

CS:GO에서 개인 대기열을 시작하는 방법

에스 포트2 일 전

디아블로 II: 부활을 오프라인으로 플레이할 수 있습니까?

에스 포트3 일 전

립타이드 작전에서 XNUMX주차 임무를 모두 완료하는 방법

에스 포트4 일 전

밸브, 개인 대기열, 짧은 경쟁 게임, 새로운 데스매치 모드 등을 제공하는 CS:GO Operation Riptide 공개

에스 포트2 일 전

게임 진입 실패, 캐릭터를 찾을 수 없음: 디아블로 II: 부활에서 오류를 수정하는 방법

에스 포트5 일 전

모든 패션 위크 정기 리서치, 당신의 목소리를 찾아서 특별 리서치, 이벤트 전용 현장 리서치 과제 및 Pokémon Go 보상

에스 포트4 일 전

Android용 Pokémon UNITE APK 및 OBB 다운로드 링크

에스 포트3 일 전

CS:GO Riptide 케이스: 새로운 스킨의 전체 목록

에스 포트4 일 전

일부 플레이어는 새로운 오류로 인해 Pokémon UNITE 모바일 사전 등록 보상을 청구할 수 없습니다.

에스 포트2 일 전

Valkyrae는 YouTube가 재능 있는 회원 및 Twitch Prime과 유사한 기능을 개발 중이라고 말합니다.

에스 포트4 일 전

리그 오브 레전드의 벡스에 대한 최고의 카운터 5개

에스 포트3 일 전

Worlds 2021 조 추첨에 대한 초기 반응: 각 팀이 필드에서 어떻게 쌓이나요?

에스 포트2 일 전

Valkyrae는 YouTube가 재능 있는 회원 및 Twitch Prime과 유사한 기능을 개발 중이라고 말합니다.

에스 포트23 시간 전

Fall Guys, 가장 많이 다운로드된 PlayStation Plus 게임으로 기네스 세계 기록 달성

에스 포트2 일 전

디아블로 II: 부활의 드루이드에 대한 최고의 통계

코 비드 195 일 전

Fintech 앱, 팬데믹 속에서 다운로드 급증

에스 포트2 일 전

Microsoft의 The Initiative는 Crystal Dynamics를 사용하여 Perfect Dark 재부팅 개발을 지원합니다.

블록체인3 일 전

미국 인프라 법안은 Cardano 억만장자를 워싱턴으로 데려옵니다.

블록체인4 일 전

비트코인 및 이더리움 옵션이 24월 XNUMX일에 만료됩니다. 이는 BTC 및 ETH 가격에 무엇을 의미합니까?

탐색