數據科學家/統計學家應該養成哪些好習慣? | 知乎問答精選

 

A-A+

數據科學家/統計學家應該養成哪些好習慣?

2018年12月29日 知乎問答精選 暫無評論 閱讀 10 ℃ 次

【關丹輝的回答(59票)】:

謝邀,個人觀點,僅供參考:

1、永遠不要輕信自己的分析結果,多用業務和常識去檢驗。

很多時候,我們的分析都是含有一些潛在的假設,而在分析過程中被忽略。比如最經典的案例是在1948年,蓋洛普錯誤地預測了杜威能擊敗杜魯門而當選總統,原因是多方面的,但是抽樣中的潛在不平均是不可否認的!再比如有個人分析結果得到剛畢業的專科的平均薪資比同專業的本科要高,就找一堆理由來說明這個結論。但是領導說這個不符合常識,打回去重新分析。之後發現是因為樣本男女比例不均衡導致的。所以,我們不要輕信自己的分析結果,尤其是不能給自己的分析找正向的理由!因為只有你找理由,總會能給自己的結論找到一堆理由。有多從實際出發,如果不符合常識,那就更要多方面論證,才能發聲!否則,就會是個笑話!

2、閱讀人文:數據科學不僅是一門科學,也是一門藝術。

數據科學,你可以認為是一門探索人性的科學。我經常跟周圍做數據或者IT人的說的一點是,因為我們是做數據或者寫一些代碼的,這裡的數字是1就是1,不會是2,TRUE了就不會是FALSE,所以做久了,人容易偏執,不會享受生活,那就無法把藝術引進!這裡也舉一個例子,美國有一家大型商場,業務經理想能否預測一個客戶是否是孕婦,以此來針對性的營銷呢?之後他們的數據科學家通過分析找到了一個模型來預測。那麼他們是直接把孕婦相關產品推薦給客戶嗎?不是的,因為這個數據科學家不僅是數學好還是一個社會學家,他說如果全部推薦相關產品,那麼客戶會覺得自己的隱私被侵犯,甚至會覺得反感,所以他的策略是把真正想要推薦的東西放在一堆其他東西裡。當然,這裡只是簡寫,實際過程非常有趣。

3、瞭解行業信息和業務信息

這一點非常重要。分析和挖掘,最終都是要落到具體的業務上來的。所以做數據,不能脫離業務和行業規律。瞭解行業信息,能夠讓你在分析的時候更加的接地氣、更好的把握分析框架!尤其是,聯繫剛才說的第一點,你積累的行業信息和業務信息都會幫助你檢驗你的分析,同時讓你更還的認識到什麼樣的分析是有價值的分析。此外,對於業務中的亂七八糟的各種概念更是要深入理解,不能停留在表面。有時候,一個業務概念理解失誤(比如0是否有參與計算),會導致分析出完全相反的結論。據說,數據分析會導致經驗累積加速,簡單的說一般業務人員工作10年的工作經驗,數據分析5年就能掌握。

4、好奇心與多溝通

愛因斯坦說過,提出一個好問題比找到一個合適的答案更重要!在我個人經驗中,按照既定的一些分析框架分析,一般都只是完成了既定的任務而已。但是,你對分析中的一些異常多問幾個為什麼,很容易找到一些業務的突破口。比如你分析銷售業績,你發現一個人,成單比例總是比別人高,甚至有時候比特別有經驗的人還高,你就問問為什麼呢?否則,你就只能發現這個數字而已。後來,你通過分析和直接詢問等方法,發現他發現了新註冊的用戶容易成單,所以每天盯著新用戶呢!當然,這樣的例子是比較多的,比如為什麼要讓用戶自己選擇一些信息呢?然後一個數據產品就出來了。

5、多實踐與多走一步

這裡涉及到模型了,也是我個人做的比較多的地方。

在數值計算(或者任何其他工程領域)裡,知道一個東西的基本算法和寫出一個能在實際中工作得很好的程序之間還是有一段不小的距離的。有很多可能看似無關緊要的小細節小 trick,可能會對結果帶來很大的不同。當然這樣的現象其實也很合理:因為理論上的工作之所以漂亮正是因為抓住了事物的主要矛盾,忽略「無關」的細節進行了簡化和抽像,從而對比較「乾淨」的對象進行操作,在一系列的「assumption」下建立起理論體系。但是當要將理論應用到實踐中的時候,又得將這些之前被忽略掉了的細節全部加回去,得到一團亂糟糟,在一系列的「assumption」都不再嚴格滿足的條件下找出會出現哪些問題並通過一些所謂的「engineering trick」來讓原來的理論能「大致地」繼續有效,這些東西大概就主要是 Engineer 們所需要處理的事情了吧?這樣說來 Engineer 其實也相當不容易。這樣的話其實 Engineer 和 Scientist 的界線就又模糊了,就是工作在不同的抽像程度下的區別的樣子。

在工作和平時學習練習中,都是這樣。很多人問的太多,做的太少,導致眼高手低。比如你問用Ensemble,會怎麼怎麼樣呢?對哇,很多人能問這個問題,但是就是不去試一試。再比如,有偏樣本的問題,有過抽樣、欠抽樣、閾值調整等等方法,都可以去自己實踐一下,才會有更加直觀的認識,否則只停留在討論階段是沒用的。多走一步,每個問題都是自己成長的階梯。

對於其他的,比如責任心、細心啥的,這些是其他職業也要求的,而專業性,這個就更不用說了。

注意:本人不是統計學家,也不是數據科學家。只是在數據科學道路上,個人的一點感受。望各位知曉!

【王浩的回答(4票)】:

說說個人對互聯網行業的數據科學家的的好習慣看法吧,統計學家太高大上了,說不了。

好習慣:

1、天天看、時時想:對各產品業務線的各項數據的規模、趨勢、數據間關係瞭如指掌。只有這種,才能基於數據做出可接地氣的決策與建議。

2、換視角、多思考:從不同屬性的用戶視角,換位思考隱藏在數據背後的用戶真實需求與期待,知道目標用戶群體從哪裡來、為什麼來、來了幹什麼、為什麼活躍/流失、如何召回、如何為用戶間牽橋搭線。這個鏈條,其實背後都是數據科學需要支持和優化的。

3、技術力、執行力:有了1、2的思考結果,如何去用數據挖掘、機器學習等等技術手段去解決、持續優化上述問題並有數據追蹤體系,最終靠的是技術如何運用和執行力。

【可愛多的回答(1票)】:

得到的結論是否可以解釋

【TerryMeng的回答(0票)】:

關於職業態度的不用再說,也就一條:一切脫離業務的分析都是耍流氓

標籤:-統計學 -數據科學家


相關資源:





給我留言