點估計、區間估計、中心極限定理之間的聯繫? | 知乎問答精選

 

A-A+

點估計、區間估計、中心極限定理之間的聯繫?

2018年02月11日 知乎問答精選 暫無評論 閱讀 17 ℃ 次

【JunyiHou的回答(70票)】:

首先說點估計。點估計就是用一個數據(data)的函數(通常稱為估計統計量,estimator)來給出一個未知參數的估計值。

即使是固定的參數真值(雖然我們不知道這個值),由於數據的隨機性,不同的數據代入這個函數往往會得出不同的估計值(estimation )。所以我們往往在點估計的基礎上包裹上一個鄰域,即得到一個區間估計。

那麼點估計周圍的這個鄰域的大小是怎麼確定的呢?一個最直接的答案就是:確定一個百分比,p%,使得給定任意數據集,參數的估計值(estimation)落在這個鄰域內的概率為p%。那麼,確定鄰域大小的問題就變成了確定參數估計量(estimator)的分佈的問題了。

首先,如果我們假設數據服從正態分佈。那麼可以證明,統計量作為隨機變量的函數,往往會服從從正態分佈中推導出來的一系列分佈(如t分佈,chi-square分佈和F分佈),那麼通過統計量(estimator)的分佈,我們可以很輕鬆的得到所求鄰域的大小。

接下來的問題就是,在日常生活中,數據並不一定服從正態分佈的。如果數據不是正態分佈的,那麼估計統計量(estimator)很可能也不服從t分佈,chi-square分佈和F分佈這些我們已知的分佈。如果我們不知道統計量的分佈,就無法確定應該給這個點估計包裹一個多大的鄰域。

於是我們退而求其次,由於在滿足一定正則條件的情況下,很多數據的分佈都會在數據量趨近於無窮的情況下趨近於正態分佈。如果數據的分佈恰好落在這個範圍內,那麼我們說,在數據量趨近於無窮的前提下,我們仍然相信統計量服從t分佈,chi-square分佈和F分佈這些我們已知的分佈。並以此為基礎得到區間估計。而中心極限定理(CLT)就是用來保證數據分佈的極限為正態分佈的定理。

最後,如果正則條件不滿足,CLT無法適用。數據分佈即使在數據量趨於無窮的情況下仍然不是正態分佈,這時候,採用傳統方法得到區間估計的辦法就行不通了。需要採用更加先進的方法(比如bootstrapping尋找區間估計;比如徹底拋棄parametric model轉用semi- non-parametric model等等)。

編輯*:其實CLT不單單在找區間估計的時候用到。很多假設檢驗的問題都依賴於統計量(或者數據等)的分佈是正態分佈這一假設。所以如果假設統計量本身就是正態的,那麼當然可以以這些統計量為基礎進行假設檢驗。但是如果分佈不是正態的,那很有可能就需要CLT來幫助(至少建立在極限狀態下的正態性)證明假設檢驗(包括區間估計)的正當性:因為如果統計量不是正態的,那麼得出來的東西根本對不上號,假設檢驗也就沒啥大意義了。

【chaoxu的回答(0票)】:

一個正態分佈的總體,可以對抽取的樣本的均值進行區間估計。

如果正態總體的標準差已知,那麼可以構建標準正態分佈對樣本均值進行區間估計。

如果正態總體的標準差未知,那麼可以用樣本標準差代替總體標準差,構建t分佈,來對均值進行區間估計。

問題來了,如果一個總體的分佈不是正態分佈,如何對樣本的均值進行區間估計呢?

這裡就用到了中心極限定理。根據中心極限定理,只要抽取樣本量足夠大(大於30),那麼樣本的均值同樣符合正態分佈。所以同樣可以構建標準正態分佈進行區間估計。

【黨爽的回答(0票)】:

點估計就是用樣本數據代替總體數據的統計量,區間估計就是用樣本統計量估計總體統計量可能位於的區間~這兩者目的是一樣的,我認為這是為了提高結論的可靠性。

至於中心極限定理~我覺得它應該算作一個工具~利用正太分佈的原理和性質區間估計的依據。

【孔祥夫的回答(0票)】:

一般用點估計來構造樞軸統計量,樞軸統計量服從某一個與參數無關的分佈,解該分佈就得到區間估計,比如在一元線性回歸時求出兩個參數的點估計,經常 再求個區間估計,中心極限定理是指在做參數估計時,有時候你不知道某個參數的分佈、或者對於離散分佈無法得到樞軸統計量,這時就需要利用中心極限定理將某些分佈「近似化」處理,比如二項分佈在樣本量很大的情況下,其均值近似服從正太分佈,這樣就得到其樞軸統計量。

標籤:-數學 -高等數學 -統計學 -計量經濟學 -概率(數學)


相關資源:





給我留言