-統計 | 知乎問答精選

 



如何規範確定一條多項式曲線的階數?

【慧航的回答(11票)】: 謝邀。非常抱歉剛剛看到這個問題,希望不晚。 如果你試過上述方法不行的話,可以考慮一下cross-validation的方法。這個方法很簡單,假設你有N個樣本,那麼對於一個階數L,你做N次擬合,每次擬合把第i個變量刪掉,然後再計算第i個觀測的殘差的平方和,然後找到那個使得這個數值最小的L。即: 其中 為刪掉第i個觀測之後的估計值。 這個方法的缺點是比較慢,比如如果你...



工具變量 (Instrumental variables) 的作用到底是什麼?

【慧航的回答(16票)】: 謝 @苗苗 邀。 你的理解有問題。舉個例子來說明一下。 比如在教育的回報問題上,我們會估計如下方程: 然而一個人的能力ability是不能觀測的,所以我們實際上能做的估計方程是: 然而一般情況下,教育edu跟一個人的能力是有正的相關性的,比如研究生的能力一般比本科生強,所以導致了 即解釋變量跟誤差項相關了。這個時候使用OLS估計,係數不是一致的,一般來說 ...



數據科學家/統計學家應該養成哪些好習慣?

【關丹輝的回答(59票)】: 謝邀,個人觀點,僅供參考: 1、永遠不要輕信自己的分析結果,多用業務和常識去檢驗。 很多時候,我們的分析都是含有一些潛在的假設,而在分析過程中被忽略。比如最經典的案例是在1948年,蓋洛普錯誤地預測了杜威能擊敗杜魯門而當選總統,原因是多方面的,但是抽樣中的潛在不平均是不可否認的!再比如有個人分析結果得到剛畢業的專科的平均薪資比同專業的本科要高,就找一堆理由來...



有什麼證據可以證明全球變暖不是因為海盜減少而引起的?

【zcwgaizhili的回答(43票)】: 我來細化一下上邊某大神,原諒我不知道如何用手機@你。 相關性不代表因果性,這句話很多人喜歡說,但是這不代表我們無法甄別真正的因果關係和虛偽的相關關係,尤其是這種顯然的謬誤。 有一些讀過一些書的半吊子,例如邏輯思維,聽到一些奇特的相關性,不禁大驚小怪,認為人類的認知方式和知識體系都完蛋了,殊不知其實已經發展出一套可以很好解決這種問題的方法了。 例如這種...



fisher information的直觀意義是什麼?

【李希宇的回答(63票)】: 首先我們看一下 Fisher Information 的定義: 假設你觀察到 i.i.d 的數據 服從一個概率分佈 , 是你的目標參數(for simplicity, 這裡 是個標量,且不考慮 nuissance parameter),那麼你的似然函數(likelihood)就是: 為瞭解得Maximum Likelihood Estimate(MLE),我們要讓log likelihood的一階導數得0,然後解這個方程,得到 這個log likelihood的一階導數也叫,Sc...



高鐵車站的命名中,「東西南北」四個方位詞各佔多大比例?分佈是否有規律?

【HuangxiangLin的回答(1010票)】: 謝 @hat600之邀。 系列終結者來臨! 做數據做了快四個小時了,主要是分類的麻煩。現在開始公佈結果了~(≧▽≦)/~啦啦啦 首先感謝這份集郵:可見是一個大家都很想知道答案的結果。 為什麼高鐵、動車車站大部分都在「東」站?比如保定東、鄭州東、襄陽東、宜昌東等等? - 高鐵時代 為什麼現在新建的火車站很多是西站? - 交通 高鐵站為什麼大多都叫南站? - 科技 為啥新開通的...



立志做 Quant, 應該如何在純數學、 應用數學、統計中做選擇?

【袁浩瀚的回答(46票)】: 謝邀。看到題目感慨頗多,深夜寫長文,如果不耐煩,請直接看最後一段。 80年代初的某一天,Peter Muller,一個Princeton純數學系的明星本科生,駕著台破二手車,橫跨美國,從新澤西來到了加州的伯克利。此時的他,唯一的愛好就是音樂,於是很自然的,在伯克利80年代的嬉皮士懷舊風潮下,找了份略屌絲的工作:在健身房給健美操彈鋼琴配樂。那時他從外表看來與流浪漢無異,有強烈的...



精算與風險管理的區別是什麼?

【米莫的回答(29票)】: 精算和風險管理 有很大的不同。 首先,精算算得大部分是賠率和賠償金額這兩項。根據這兩個數據 通過直線或曲線模型來算 被保人每年要繳的保金。對於保險公司來講,他們面對的客戶是投保人,投保人只要在投保過程中有一次違約不付款的現象,保險公司可以終止合同,那麼之前的保金也相應歸保險公司。所以精算師們的擔憂 只在 根據不同人不同保險險種 分析他們會有多大幾率申請保費 然...



截面、時間序列、面板數據的劃分界限是否是截然的?時間在統計計量和隨機過程中有什麼特殊性?

【慧航的回答(20票)】: 謝邀,好問題,簡單的談談 時間的特殊性: 在cross-sectional數據裡面,個體之間通常假設是相互獨立的,而在時間序列裡面,單獨的隨機變量之間都不是相互獨立的,比如最簡單的AR(1),任何一個y_t都是有相關性的。所以在時間序列裡面需要特殊的「LLN」,也就是需要ergodic、平穩性等的假設 在計量經濟學裡面,由於時間序列數據的特殊性,其識別策略跟截面數據差別很大。比如同樣是...



中國失業率是如何統計的?

【SgtPepper的回答(28票)】: 客觀來說,中國的失業率不是「統計」出來的,是「登記」出來的。 中國的失業率是登記失業率,登記失業率=勞動部門登記的失業人數/(勞動部門登記的就業人數+勞動部門登記的失業人數)。這裡不包含農村,只算城鎮。 失業人員去登記的原因大概有兩個:一是領取失業保險,二是在組織的幫助下重新就業。(三是居委會大媽太負責?) 領取失業保險的主要要求是參保滿一年、非本人意願...