-數據 | 知乎問答精選

 

NEW

預期壽命是如何統計出來的?

【王相及的回答(13票)】: 預期壽命是通過抽樣調查,算出 生命表 ,然後再從生命表中算出來的。生命表定義可見:https://zh.wikipedia.org/wiki/%E7%94%9F%E5%91%BD%E8%A1%A8 人口統計學家會劃一群有代表性的樣本,每年入戶調查看看上一年還活著的某個年齡段的人口,這一年還活著的概率,編纂出生命表。這個概率就可以用來計算「預期」壽命,也就是說,一個0歲的嬰兒,按這個概率來來死,他的「...



Mac 上 Finder 的「清倒廢紙簍」和「安全清倒廢紙簍」有什麼區別?

【Rio的回答(50票)】: 【如果知乎早點出現、如果冠希老師早點看到這個問題我的回答,那麼霆鋒哥哥、柏芝姐姐、欣桐妹妹的日子估計現在不會這麼悲慘、冠希老師還可以和她們性福的生活下去……】 所謂「安全清倒廢紙簍」,就是把刪除文件的存儲位置反覆用隨機數據覆蓋寫入數次,從而無法使用任何民用級別工具恢復清除的文件。只是簡單「清倒廢紙簍」的話,文件還是有很大可能恢復的。不信你去問冠希...



有哪些「神奇」的數據獲取方式?

【LiuCao的回答(981票)】: update: 強烈不推薦搞學術、做量化使用此方法,此方法只適用於商科PPT犬,做一些定性分析時使用。 ----- 我不是搞經濟學的,但是最近做實習,要找N多千奇百怪的data,其中有些變態的數據,找來找去都找不到。 但是在某個一霎那,你會突然發現某個report/paper 裡剛好有我們想要的數據。就像這樣: 來源:來源:http://www.colliers.com/-/media/files/marketresearch/apac/chin...



一份理想的移動應用市場的分析報告,應該包含哪些內容?

比如一段時間產生了多少應用,比如這些應用下載量多少,比如他們的付費或廣告收入狀況等,作為開發者,你希望得到哪些數據,希望完整和準確到什麼程度? 【picobird的回答(8票)】: 研究了友盟,應用匯,Distimo的數據報告,個人覺得應包括以下內容: +終端 ? -系統版本 ? -分辨率 ? -CPU,內存等硬件配置 ? -品牌分佈 ? -價格分佈 +用戶 ? -地理分佈 ? -下載時段 ? -付費用戶比例 +軟件 ? -下載渠道(Appsto...



用於數據挖掘的分類算法有哪些,各有何優劣?

【JasonGu的回答(37票)】: 嘗試將quora上的這個回答翻譯了下。第一次翻譯,不好之處請見諒。 What are the advantages of different classification algorithms? 以下是我這些年總結的指南 訓練集有多大? 如果你的訓練集很小,高偏差/低方差的分類器(如樸素貝葉斯)比低偏差/高方差的分類器(如K近鄰或Logistic回歸)更有優勢,因為後者容易過擬合。但是隨著訓練集的增大,高偏差的分類器並不能訓練出非...



為什麼那麼多牛人成天在研究討論算法,系統自動推薦的東西還是不能令人滿意呢?

【陳鎮波的回答(61票)】: 下面是我在如何看亞馬遜個性化推送商品問題中的回答,我想對這個問題同樣有效:我記得10年前,互聯網剛興起的時候就有人研究如何通過機器算法推送用戶信息的算法,其方式和亞馬遜採用的一樣,無非是對用戶數據的深度挖掘(瀏覽行為、性別、年齡........),然後匹配用戶感興趣的廣告,這就是所謂的精確廣告投放的概念。 Amazon的給用戶推薦商品的推薦算法給用戶推薦其本質事實上和10...



如果新浪微博開始冷清了,會是什麼因素導致的?

在我看來 1 能複製的一些內容都已經複製轉發完了,內容量減少很多了,信息少了 2 名人的發言已經越來越少了,我身邊很多高層都不怎麼上微博了,可能覺得沒意思 3 「關注才可見」這一功能把新浪微博給逼死了。N多用戶都煩這個功能 請大家繼續總結 【悟名的回答(14票)】: 這個問題還是很有意義的。LZ問「新浪微博為什麼開始冷清了?」,固然可能LZ沒有調查新浪微博整體的微博發佈量等數據,但起碼在LZ主觀上...



金融行業有哪些領域需要大量運用數據分析?具體有哪些職位?

【XinZou的回答(9票)】: 就我所在的信用卡領域來說,大量用到數據分析的主要可以分為risk和marketing兩大部門。 1.Risk 1.a Modeling risk score,預測客戶default/charge off的風險。 fraud modeling,預測刷卡fraud的可能性等等 1.b Business Strategy 諸如給客戶確定credit line, APR等都需要用到數據分析,這裡面可能會用到modeling提供的各種score。 1.c Corporation Risk 諸如loss forecasting, capi...



用簡單易懂的語言描述過擬合 overfitting?

【鄭昆的回答(94票)】: 其實不完全是噪聲和假規律會造成過擬合。 (1)打個形象的比方,給一群天鵝讓機器來學習天鵝的特徵,經過訓練後,知道了天鵝是有翅膀的,天鵝的嘴巴是長長的彎曲的,天鵝的脖子是長長的有點曲度,天鵝的整個體型像一個「2」且略大於鴨子.這時候你的機器已經基本能區別天鵝和其他動物了。 (2)然後,很不巧你的天鵝全是白色的,於是機器經過學習後,會認為天鵝的羽毛都是白的,以後看到...



大數據最核心的價值是什麼?

【HanHsiao的回答(609票)】: 2014年4月29日更新了兩張圖,修改一些拼寫錯誤。 - 下面是一些長篇的討論,這裡我把大數據的核心價值理解為核心商業價值。 「很多人還沒搞清楚什麼是PC互聯網,移動互聯網來了,我們還沒搞清楚移動互聯的時候,大數據時代又來了。」——馬雲卸任演講 本文嘗試從三大產業的角度將大數據的核心商業價值分類討論。 首先例舉一些大數據的典型應用,然後解釋大數據的定義,最後總結大...