-數據 | 知乎問答精選

 



勞動經濟學領域有哪些比較好用的數據庫?

【猶大酸豆角的回答(29票)】: 謝謝 @Zampeli Diana 邀請。 我前幾天剛好寫了一篇文章,談到了這個話題,各位感興趣的話,可以看下。 中國勞動經濟學領域的微觀數據庫介紹 |Jian Tsou 這裡談到了一些研究中國勞經領域的微觀數據,當然並不全,僅僅談了下我接觸過的幾個同時也是主要的微觀數據庫,分別有: 1. CHIP 2. CFPS 3. CHARLS 4. CHNS 5. CGSS 6. CHFS 較全的數據庫介紹本文的結尾處有兩...



為什麼廣州地鐵的客運強度這麼高?

【hat600的回答(31票)】: 首先表格反映的不是廣州地鐵運力高,而是坐的人多。廣州地鐵運能沒有上海大的。 其次題主研究的指標叫做客運強度。 - 本答案並不是針對廣州的,而是針對客運強度這個指標的。對廣州的分析也相對較少,尤其廣州是3+而不是2+,領先第二名將近0.9的具體原因並未涉及,有可能的話請其他同學補充。 - 下圖是各年度北京地鐵年客運量除以上一年末線路總長度的折線圖(含機場線...



把系統盤裡的所有東西都複製到 U 盤裡,是否可以起變成系統盤?

【王明哲的回答(17票)】: 0 如果是 Linux 系,簡單說就是把 bootloader 安裝好,把 fstab 修改好,然後把根目錄(home 酌情考慮)拷貝過去,就可以了。如果要在別的機器使用,別忘了重建 initramfs 。Linux 用戶請自行折騰 Mac 沒有使用過,請大神補充。 下面默認題主指的是 Windows 系操作系統。下面的描述中使用 7 代替使用 NT 6 的內核的操作系統,使用 XP 代替 NT 5 的內核的操作系統。 1 磁盤需要...



Data Science 和 Finance 兩個領域的融合是什麼樣子的?

【董可人的回答(36票)】: 比較狹義一點的Quant一般是指各大投行裡做衍生品定價,信用評估,風險控制之類工作的人,這種工作裡又有很大一部分是涉及隨機過程微分方程等偏理論的數學,對數據分析要求不高;只有另外一部分基於統計的工作才和Data Science相關。兩者的分類可以參見這個問題在華爾街工作的數學博士的研究方向一般是什麼? 如果對使用理論模型進行定價的工作感興趣,很多學校開設的Financial Eng...



在數據分析、挖掘方面,有哪些好書值得推薦?

【肖智博的回答(1142票)】: 2014.2.1更新,由於經常接到私信要求在這個書單之內再推薦兩三本,每個人的行業背景也不一樣,所以就把下面的書單歸類整理一下。 入門讀物: 深入淺出數據分析 (豆瓣) 這書挺簡單的,基本的內容都涉及了,說得也比較清楚,最後談到了R是大加分。難易程度:非常易。 啤酒與尿布 (豆瓣) 通過案例來說事情,而且是最經典的例子。難易程度:非常易。 數據之美 (豆瓣) 一本介紹性的...



數據科學家/統計學家應該養成哪些好習慣?

【關丹輝的回答(59票)】: 謝邀,個人觀點,僅供參考: 1、永遠不要輕信自己的分析結果,多用業務和常識去檢驗。 很多時候,我們的分析都是含有一些潛在的假設,而在分析過程中被忽略。比如最經典的案例是在1948年,蓋洛普錯誤地預測了杜威能擊敗杜魯門而當選總統,原因是多方面的,但是抽樣中的潛在不平均是不可否認的!再比如有個人分析結果得到剛畢業的專科的平均薪資比同專業的本科要高,就找一堆理由來...



一個大型的SNS網站,是否適合數據庫全部用mongodb來做,為什麼?

我沒有實際用過mongodb,但是沒有表間的關係,讓我很猶豫。以前的做法是,多表聯合的查詢用join,但是用了mongodb以後,查詢幾乎都是用「查一個collection,根據id查另外一個collection」這種做法。我不清楚關係數據庫和Mongodb在這種情況下的優劣……! 【王亞暉的回答(5票)】: 永遠不要使用自己不熟悉的技術。 沒有任何道理你熟悉的MySQL做出來的東西會比半吊子的MongoDB差。 【wayne的回答(3票)】: 不建議...



有什麼證據可以證明全球變暖不是因為海盜減少而引起的?

【zcwgaizhili的回答(43票)】: 我來細化一下上邊某大神,原諒我不知道如何用手機@你。 相關性不代表因果性,這句話很多人喜歡說,但是這不代表我們無法甄別真正的因果關係和虛偽的相關關係,尤其是這種顯然的謬誤。 有一些讀過一些書的半吊子,例如邏輯思維,聽到一些奇特的相關性,不禁大驚小怪,認為人類的認知方式和知識體系都完蛋了,殊不知其實已經發展出一套可以很好解決這種問題的方法了。 例如這種...



用於量化投資策略(最高日頻率)研究的金融數據庫,用 MySQL 是否足夠?有哪些可能遇到的瓶頸?

【BruceAshbey的回答(6票)】: 如果你是來做高頻數據,SQL絕對不是解決方案,光是調取數據的查詢就要等死你。至於如何解決可以另開一個專題討論。 題主提到的是最高日頻率的數據,其實能否夠這裡要分兩部分來討論。 第一部分是存儲 這個不會成為你的瓶頸。 因為從總容量來說,所有的金融數據(日以上級別)國內的加起來不超過20G(沒有文本數據) 任何一個服務器的硬盤都足矣可以承受。 從單表來說,最大的...



fisher information的直觀意義是什麼?

【李希宇的回答(63票)】: 首先我們看一下 Fisher Information 的定義: 假設你觀察到 i.i.d 的數據 服從一個概率分佈 , 是你的目標參數(for simplicity, 這裡 是個標量,且不考慮 nuissance parameter),那麼你的似然函數(likelihood)就是: 為瞭解得Maximum Likelihood Estimate(MLE),我們要讓log likelihood的一階導數得0,然後解這個方程,得到 這個log likelihood的一階導數也叫,Sc...