fisher information的直觀意義是什麼? | 知乎問答精選

 

A-A+

fisher information的直觀意義是什麼?

2018年10月19日 知乎問答精選 暫無評論 閱讀 6 ℃ 次

【李希宇的回答(63票)】:

首先我們看一下 Fisher Information 的定義:

假設你觀察到 i.i.d 的數據

服從一個概率分佈

,

是你的目標參數(for simplicity, 這裡

是個標量,且不考慮 nuissance parameter),那麼你的似然函數(likelihood)就是:

為瞭解得Maximum Likelihood Estimate(MLE),我們要讓log likelihood的一階導數得0,然後解這個方程,得到

這個log likelihood的一階導數也叫,Score function :

那麼Fisher Information,用

表示,的定義就是這個Score function的二階矩(second moment)

一般情況下(under specific regularity conditions)可以很容易地證明,

, 從而得到:

於是得到了Fisher Information的第一條數學意義:就是用來估計MLE的方程的方差。它的直觀表述就是,隨著收集的數據越來越多,這個方差由於是一個Independent sum的形式,也就變的越來越大,也就象徵著得到的信息越來越多。

而且,如果log likelihood二階可導,在一般情況下(under specific regularity conditions)可以很容易地證明:

於是得到了Fisher Information的第二條數學意義:log likelihood在參數真實值處的負二階導數的期望。這個意義好像很抽像,但其實超級好懂。

首先看一下一個normalized Bernoulli log likelihood長啥樣:

對於這樣的一個log likelihood function,它越平而寬,就代表我們對於參數估計的能力越差,它高而窄,就代表我們對於參數估計的能力越好,也就是信息量越大。而這個log likelihood在參數真實值處的負二階導數,就反應了這個log likelihood在頂點處的彎曲程度,彎曲程度越大,整個log likelihood的形狀就越偏向於高而窄,也就代表掌握的信息越多。對於這樣的一個log likelihood function,它越平而寬,就代表我們對於參數估計的能力越差,它高而窄,就代表我們對於參數估計的能力越好,也就是信息量越大。而這個log likelihood在參數真實值處的負二階導數,就反應了這個log likelihood在頂點處的彎曲程度,彎曲程度越大,整個log likelihood的形狀就越偏向於高而窄,也就代表掌握的信息越多。

然後,在一般情況下(under specific regularity conditions),通過對score function在真實值處泰勒展開,然後應用中心極限定理,弱大數定律,依概率一致收斂,以及Slutsky定理,可以證明MLE的漸進分佈的方差是

,即

, 這也就是Fisher Information的第三條數學意義。不過這樣說不嚴謹,嚴格的說,應該是

, 這裡

是當只觀察到一個X值時的Fisher Information,當有n個 i.i.d 觀測值時,

。所以這時的直觀解釋就是,Fisher Information反映了我們對參數估計的準確度,它越大,對參數估計的準確度越高,即代表了越多的信息。

【銘洋的回答(3票)】:

What is an intuitive explanation of Fisher information?

Let's consider the one dimensional case with a log-likelihood function

where

is the parameter of interest. The observed fisher information is the curvature at the peak of this function, that is

, which intuitively tells us how peaked the likelihood function is or how "well" we know the parameter after data has been collected. A log-likelihood which is not terribly peaked is somewhat spread out, and we don't really have much confidence in what

is after having collected data and conversely, a very peaked likelihood implies we have a great deal of "confidence" of the precise value of

.

The expected fisher information applies the same concept except we average out the data, and we treat

as a constant: it's

. So it tells us on average how curved or peaked the likelihood function will be after the data has been collected, for a prescribed value of

.

In the multi-dimensional setting, we simply take the Hessian as opposed to the second derivative to measure curvature.

Conceptually, I find the idea of functionals of the likelihood as a statistic itself quite funny to wrap my head around: instead of a single number, we have an entire (random) data dependent function that encapsulates something about the parameter of interest.

【小心假設的回答(2票)】:

Fisher information其實就不是Shannon定義的information了,正如Wiener entropy就不是Shannon定義的entropy了。

其實是回到了更fundamental的層面。

簡單地說,個人理解,Fisher information就是數據中能為Minimum variance estimator所用的information。Fisher information為0,則最優estimator的variance(其實就是Cramer-Rao bound)為無窮大;Fisher information越大,則最優estimator的variance越小;Fisher information為無窮大,則最優estimator的variance為0。

從這一層面講,其實Shannon定義的information,是能為communication所用的information。

【居晟的回答(0票)】:

直觀的來說,你可以看做在這個分佈下你數據給你的信息量。

通過fisher information,你可以得到Cramer–Rao (information) bound. 在滿足一定條件下,這會是無偏估計量方差的bound

標籤:-數學 -數據統計 -統計 -機器學習


相關資源:





給我留言