有哪些「神奇」的數據獲取方式? | 知乎問答精選

 

A-A+

有哪些「神奇」的數據獲取方式?

2019年04月20日 知乎問答精選 暫無評論 閱讀 3 ℃ 次

【LiuCao的回答(981票)】:

update: 強烈不推薦搞學術、做量化使用此方法,此方法只適用於商科PPT犬,做一些定性分析時使用。

-----

我不是搞經濟學的,但是最近做實習,要找N多千奇百怪的data,其中有些變態的數據,找來找去都找不到。

但是在某個一霎那,你會突然發現某個report/paper 裡剛好有我們想要的數據。就像這樣:

來源:來源:colliers.com/-/media/fi

但是然並卵... 你去email colliers 要data 他並不會理你啊。

這時候就輪到神器登場了,Ankit Rohatgi 開發的 WebPlotDigitizer。

上傳我們想要的圖片:

描好坐標軸和點:

導出數據,大功告成!

當然還有其他的,比如

Welcome to DataThief

digitizer.sourceforge.net

Digitize graphs and plots

或者你也可以自己寫matlab code啥的識別

反正我是懶得下載軟件/自己寫code。

---------

其他可以解鎖的技能:

NO1.使用 WebPlotDigitizer 自動識別曲線。

NO2.使用 WebPlotDigitizer 處理數據後使用Plotly直接畫出曲線。

NO3.使用 WebPlotDigitizer 識別對數坐標軸

NO4.至NO100. : 點贊私信後我告訴你。:)

【楊陽的回答(124票)】:

我來說說我的主要數據獲取途徑吧,不知道算不算「神奇」的獲取方式。

  • 人工錄入。應該也是我所做的學科(量化歷史)的主要獲取手段吧。身在這個領域某大牛老師的門下,親身領教了師門各位前輩師兄師姐錄入數據的能力。比如從《清實錄》,《萬曆會計錄》等歷史文獻中尋找相應的變量,如清末進士資料,明代財政稅收數據。這都是非常辛苦而且枯燥的工作,但是或許這也是這個領域有意思的地方之一吧。

附,《萬曆會計錄》某頁

  • 網絡過往數據爬取。算是我另一個重要獲取手段。R或者Python爬蟲,基本上可以做到所見即所得。雖然我不是職業的碼農,但還是在這方面下了些功夫,比不上大牛,但是能滿足自己需求就行。在忙完自己的事情空閒,也會幫同門的師兄弟抓一些感興趣的數據,互通有無吧。
  • 網絡實時數據監控。其實算是一種沒法獲取過往數據的補救手段。很多網站的數據是具有時效性的,比如某招聘網站招聘數據,某二手房交易出租網站數據,某地污染實時監控數據,這些數據每過一段時間會失去時效性,因此必須讓爬蟲每隔一段時間,甚至實時去監控網站數據的改變,自己建立一套面板數據。我目前在監控的網站有10多個,都是比較有意思的數據。
  • 「特殊」漏洞渠道。我個人經常關注烏雲,會對有關數據的漏洞敏感一些,有一些個人感覺「有意思」的數據,會在漏洞爆出的時候想辦法獲取。但是這些數據往往牽扯到對數據來源正當性的質疑,因此至今從未將其用於學術研究,只是個人感興趣或者叫數據收集癖吧。前幾天發現有個政府網站在後台掛了一套自己省的電子版縣志,果斷拿下。其他有意思的比如XX開房數據,五毛數據等等,總之先入手,說不定有用呢不是?
  • 學術合作。有時候數據是靠「換」來的,我有你要的數據,你有我要的數據,那大家互通有無,或許可以推進學術合作,做出對你我都有意義的研究。這應該也是目前學術界普遍流行的模式。歡迎同樣有數據收集愛好的同仁私信互通有無哈,如果各位學術界的前輩大佬有需要抓得數據也可以聯繫我哈,力所能及盡量幫忙。
  • 眾籌。沒錯,你別笑,就是眾籌。比如這個,哈佛中國經濟史大數據研究項目。請注意獎勵部分。

研究簡介

中國經濟史大數據研究項目通過收集和電子化中國縣志中數據,分析新中國成立至今(部分涉及民國年間)的社會經濟發展。此研究旨在建立新中國成立後最完善的社會經濟數據庫,其數據涵蓋中國近2000個縣(市),時間跨度長達65年,包括120個變量。

談古說今--中國社會經濟分析大賽

作為中國經濟史大數據研究項目的一部分,此次大賽主要有如下願景:

1.通過數據分析和報告撰寫,增進各高校學生對新中國成立後的社會經濟改革和發展途徑的瞭解,促進其對今日中國改革的思考。

2.篩選符合資質要求的優勝參賽者暑期赴哈佛協助研究,並邀請他們參加由哈佛經濟學系Richard Freeman教授在NBER(NationalBureau of Economic Research)舉辦的學術研討會。

瞭解Freeman教授:Richard B. Freeman's Home Page

3.為參賽者提供平台與世界知名的經濟學家對話,瞭解中國和世界經濟學界最新動態。

面向對像

本大賽面向所有在校或畢業大學生,專業、年齡、國籍不限。

比賽流程

1.在線申請

時間:3月18日-4月30日

團隊申請:以團隊(3-4人)名義申請,團隊中須有一名成員作為負責人

個人申請:以個人名義申請,所有申請個人將被隨機安排組成團隊

2.培訓

時間:定期在各高校為新加入參賽者舉辦

各高校負責人對所在高校的參賽者進行培訓,培訓內容包括:熟悉變量表,正確掌握重命名。

3.參賽任務:縣志掃瞄文件的重命名

時間:提交時間不晚於5月10日

完成規定量的掃瞄數據重命名任務,並在完成後及時提交。

3人團隊:30個縣

4人團隊:40個縣

4.專題報告

時間:提交時間不晚於5月31日

提交第一階段任務後,參賽團隊在給定的若干題目中自主選題並提出數據申請(僅限參賽小組重命名的數據),完成一篇區域經濟發展分析報告。

注意:參賽小組需要在40天內完成重命名和報告(重命名後的數據錄入時間一般在一周之內,不計入參賽團隊總時間),團隊自行分配時間(即:如果15天完成重命名任務並提交,在獲得反饋的數據後,參賽團隊需要在25天內完成報告並提交)

評分標準

是否完成規定量的重命名任務:通過/不通過(不通過則取消參賽資格)

重命名的完成質量:評分制

報告質量:評分制(組委會將反饋意見與建議)

參賽時間

參數團隊的所有數據處理需要於5月10日前提交,報告於5月31日前提交。

獲勝獎勵

1.所有參賽者(除任務未完成不通過者)都將獲得參賽證明,優勝者將得到Richard Freeman親筆簽名出版物。

2.傑出的參賽小組將在暑期受邀赴美,參加Richard Freeman教授在NBER舉辦的學術研討會,並在哈佛大學參與進一步研究工作。

雖然我對這個「獲勝獎勵」表示呵呵,但是這確實是個不錯的想法。如果組織方在賽後會公佈數據的話,我要恬不知恥的說:

大神數據分享給我一份吧我給您跪下了。

【知乎用戶的回答(0票)】:

用計量經濟學研究區域人文或地理的問題的時候,可以用谷歌地圖對一些實體場所或定性的區位特徵進行統計,雖然有點麻煩,但總比實地考察快捷方便。

【劉浩的回答(1票)】:

wolframalpha

【LeonWang的回答(3票)】:

可以搜索一下CAPTCHA,知乎裡也有答案介紹過。反正當時我覺得太牛了。

【王胖咩的回答(2票)】:

」你和我在一起,就是為了用我的實驗數據!咱倆結束了!」

【何明科的回答(23票)】:

看到這個問題不得不來答一下,因為我們這個項目(用數據化的方式解析投資條款(預告片) - 數據冰山 - 知乎專欄)收集數據和處理數據的方式是在太神奇或者太奇葩了。

應老大的要求,想要對這幾年中國盡可能多的私募案例(VC+PE投資)進行研究,一方面尋找投資條款的變化趨勢;另一方面可以為創業者提供借鑒,各種價格或者IRR的平均值或者方差,方便創業者評估投資條款是否公平。這算法和建模沒啥難度,可是收集原始數據以及處理數據這可就要了命,下面詳細分解。

收集數據

要想得到詳細的投資條款,必然需要拿到完整的投資Termsheet或者投資協議,這一般來說都是創業公司或者基金的絕密材料(因為涉及到諸多敏感信息,每一方的股權比例和價格寫得一清二楚能不敏感嗎?),不會輕易外傳。於是我們幾個小弟就開始了漫長的損人品的挨個求人過程,逐個敲門找到獲得過融資的創業者或者投資人,在受到無數的冷屁股及打擊之後,矢志不渝得獲得了幾百份投資協議。同時,許多協議為了保護提供人的敏感信息,還要求對方在提供之前把敏感信息用「XXX」替代,為對方增加了許多工作量,於是就要再次厚顏無恥得不斷詢問對方處理得怎麼樣了,什麼時候能提供。

處理數據

投資合同一般都是幾十頁以上,而且許多是英文,下圖給大家一個直觀印象,每一個小方塊都是一頁word,下圖的文件大概有60多頁。

另外法律文件為了嚴謹,文字描述冗長和複雜(簡單說,就是不說人話),下面的語也給大家一個直觀印象。

At any time and from time to time after [fifth anniversary of the Closing Date] and if the Qualified Event (as defined below) has not occurred, within ten (10) days (the "Redemption Date") after the receipt by the Company of a written request from the holders of not less than a majority of the then outstanding Series A Preferred Shares, the Company shall redeem all of the then outstanding Series A Preferred Shares by paying in cash in exchange for the Series A Preferred Shares to be redeemed an amount per share equal to the sum of (x) the Purchase Price plus an IRR of 15% for the period from the issuance date of the Series A Preferred Shares to the Redemption Date, and (B) an amount equal to all cumulative dividends with respect to the Series A Preferred Shares to the Redemption Date which have not been declared and paid (the "Redemption Amount"), proportionally adjusted for Recapitalizations. For the purpose of this Section 6, the "Qualified Event" shall occur if (i) the Common Shares are listed on the XXX Stock Exchange (or successor senior board of the XXX) or other exchange approved by a majority of holders of the Series A Preferred Shares (a "Senior Exchange"), and (ii) the entire market capitalization of the Company is more than $xxx million in any consecutive 30-trading-day period.

讀完這些英文,不知道有多少人還沒有暈,是不是堪比GRE閱讀。

因為這些投資條款的內容實在太專業了,只能找到並說服資深法律或者投資人士(這些人都是很貴而且很不願意做這種運營級別的活兒)幫忙逐個文件逐個條款閱讀,將這些投資條款結構化並錄入到數據庫。目前我們已經整理完100多個投資文件,還有100多個等待被整理中。

呈現數據

正是因為有了上面的「神奇」工作,才有了下面炫目的圖表以及有價值的信息。

我們的文章已經發佈了三期,持續更新中,歡迎大家關注以及給與指導。

用數據化的方式解析投資條款之一:員工期權 - 數據冰山 - 知乎專欄

用數據化的方式解析投資條款之二:過橋貸款 - 數據冰山 - 知乎專欄

用數據化的方式解析投資條款之三:增資權warrant - 數據冰山 - 知乎專欄

【邱彥的回答(0票)】:

你看像這種問題我就強答不了...

【張皓不是張浩的回答(1票)】:

寫爬蟲,自己抓。

【孫國利的回答(0票)】:

推薦一個網站,人大經濟論壇,有各種經濟數據

【造小雷的回答(0票)】:

quandl

【知乎用戶的回答(0票)】:

有錢任性就買;沒錢就爬。

金融數據

see

faruto.matlabsky.com/FQ

【Rain的回答(0票)】:

百度一下,你知就知道

【marklawyer的回答(3票)】:

還是不匿了。。。。

我有個同學,他想泡美女,但是又苦於沒有資源,於是他想了一個逆天的方法。。。

在以前,58同城還有趕集網裡面發佈招聘消息只需要註冊就行了。。。

於是他隨便註冊個假公司,發佈了招聘兼職禮儀小姐,平面模特的消息。。。

標個虛高的工作報酬,指明要發照片,暗示要身材好,性格開放。。。

然他留個自己的郵箱。。。然後每天收到N封簡歷和美女照片。。。

然後他就根據收到簡歷的信息和電話,逐個聯繫去泡。。。

沒偏題吧。。。

【西子宜的回答(0票)】:

說兩個行業情況:

1、高德地圖的路況數據是人工瀏覽交管網站更新;

2、大眾點評的冷門店舖數據是網絡抓取的;

有時候你覺得理所當然的數據獲取方式,反而是用更土鱉的方式獲取的。

標籤:-經濟學 -統計學 -數據挖掘 -爬蟲(計算機網絡) -複雜性科學


相關資源:





給我留言