截面、時間序列、面板數據的劃分界限是否是截然的?時間在統計計量和隨機過程中有什麼特殊性? | 知乎問答精選

 

A-A+

截面、時間序列、面板數據的劃分界限是否是截然的?時間在統計計量和隨機過程中有什麼特殊性?

2018年09月11日 知乎問答精選 暫無評論 閱讀 10 ℃ 次

【慧航的回答(20票)】:

謝邀,好問題,簡單的談談

時間的特殊性:

  1. 在cross-sectional數據裡面,個體之間通常假設是相互獨立的,而在時間序列裡面,單獨的隨機變量之間都不是相互獨立的,比如最簡單的AR(1),任何一個y_t都是有相關性的。所以在時間序列裡面需要特殊的「LLN」,也就是需要ergodic、平穩性等的假設
  2. 在計量經濟學裡面,由於時間序列數據的特殊性,其識別策略跟截面數據差別很大。比如同樣是聯立方程,截面數據可以使用工具變量來解決,而在SVAR裡面不可能找到外生變量,所以有很多其他的輔助的識別技巧。
  3. 二階矩方面,橫截面數據面臨的問題通常是「異方差」,沒有「自相關」的問題。時間序列的數據通常是「同方差」的,但是一般有自相關的問題。注意ARCH等模型雖然叫「異方差」,但其實是「條件異方差」,非條件的方差仍然是同方差。

當然,時間序列數據跟截面數據也並非那麼清晰。比如當我們研究空間計量時,「空間滯後」跟時間序列有相似之處,甚至AR(1)可以看成是空間滯後的某種特例。不過這種情況比較少見,一般來說時間序列數據和截面數據從模型到方法差別非常之大。

另外,還有一些比較「奇葩」的模型,比如CAPM、Fama-MacBeth等等一系列的東西,結合了時間序列和橫截面的數據,蠻有意思的。

【HulkWu的回答(7票)】:

不請自來,只說說第一問。問題質量很高,實際上我心裡和題主有一樣的疑問,所以這個問題我是答不上來的;只不過不求甚解如我,在舊筆記裡用一個說法簡單圓過去了,就厚顏拿來拋磚引玉一下。

這個問題在我這裡的形式是:Cross-Section、Time Series、Panel,作為數據結構,「地位」如何區分/獨特性質何在/劃分的意義是什麼?畢竟若純從數學上,把時域和區域認為是等價的兩個維度,便很容易覺得Time Series只是和Cross-Section並列的一種一維數列,而Panel糅合二者更加「高級」。然而,問題就在於時間維度具有獨特的性質,使Time Series的處理存在特殊的難題,因此反而相對獨立於Cross-Section和Panel,自成一脈。

我將時間維度的獨特性質reduce為:在時間維度上求平均值是否可行?在假設樣本存在一定分佈特點的情況下,Cross-Section求平均值可以得到一個樣本的平均狀況。但對單樣本在時間上取平均,得到的均值則含義不明。例如,我們可以得到一個班級的身高截面,取平均得到這個班級的「平均身高情況」;我們也可以得到這個班級某個人的身高時序,然而取平均就不知道得到什麼玩意了。這個性質的不同凸顯了時間之於其他維度的特殊性。

粗淺地理解,這是由於時間序列存在單向依存性,破壞了Cross-Section上的分佈假設引起的。仍依上一段的例子,一個班級的身高截面,橫軸是座位號,可以從1排到50,也可以反過來排,隨便愛怎麼排怎麼排;這個軸是各向同性的,軸上的點是等價的、不相關的。而某個人的身高時序則不然,從1995到2005,後一個值總是取決於前一個值。我很隨意地把它稱為單向依存性

總之,就這麼圓過去了-_-!當我們承認時間維度具有獨特的性質,那麼Cross-Section、Time Series、Panel的區分其實是這樣的:

也就是說,我認為Cross-Section是經典理論的出發點,是最初始的形態;Panel是Cross-Section的加強版,雖然引入了時間但只是用完就丟;Time Series是在重點考慮了時間軸的特殊性質後另外開發了一套方法。從歷史來看(未經考據),一開始大家只考慮Cross-Section的數據,後來才有Time Series和Panel;兩者都引入了時間,但是引入的目的和最終的影響都不同。至於Pooled Panel,我理解是在Cross-Section上引入時間僅僅用於增加樣本(有誤請指出),和Panel下面的Random Effect是差不多的意思。也就是說,我認為Cross-Section是經典理論的出發點,是最初始的形態;Panel是Cross-Section的加強版,雖然引入了時間但只是用完就丟;Time Series是在重點考慮了時間軸的特殊性質後另外開發了一套方法。從歷史來看(未經考據),一開始大家只考慮Cross-Section的數據,後來才有Time Series和Panel;兩者都引入了時間,但是引入的目的和最終的影響都不同。至於Pooled Panel,我理解是在Cross-Section上引入時間僅僅用於增加樣本(有誤請指出),和Panel下面的Random Effect是差不多的意思。

往後看,明晰了(並沒有!- -)數據結構上的差異之後,基本假設以及處理方法就有了區別, 關於這點,@慧航總結得甚是精當。

而再往前看,時間的獨特性質我歸納得是否準確呢?這種獨特性質從何而來?為什麼要施加當前的假設來處理這種性質?我想恐怕得由瞭解現代物理或者科哲這一片兒的老師同學來解答。當然,如果願意再不求甚解一把的話,其實經典物理裡面,時間本就是很獨特的一維……所以就以經典物理觀之就挺好,這也屬於一種方便觀……:-P

【brucelee的回答(2票)】:

只能回答隨機分析的問題,統計的想法我不懂,但是隨機分析是嚴格的數學,要相信數學的自洽。隨機變量族的指標集解讀成什麼是無關緊要的,數學的性質和定理有嚴格的數學定義保障的。

指標集一般取成實數集的子集,上面有全序關係(大小關係),定義流、停時、鞅的時候要用到,馬爾科夫性的話還要用到上面的半群結構(加法運算)。隨機向量,隨機序列,隨機過程分別是指標集為有限集,可數集,和區間時候的情況,當然可以統一地看成隨機變量族。

隨機過程的指標能不能當成隨機變量,回憶隨機變量實際上是樣本空間上的可測函數,固定指標作為常值函數是可測的,當然可以被當成隨機變量。實際上我們當然更關心反過來的情況,盡量把固定指標推廣到隨機指標去,比如停時這樣的概念。

標籤:-統計學 -概率論 -隨機過程 -計量經濟學


相關資源:




給我留言