在數據分析、挖掘方面,有哪些好書值得推薦? | 知乎問答精選

 

A-A+

在數據分析、挖掘方面,有哪些好書值得推薦?

2019年01月06日 知乎問答精選 暫無評論 閱讀 14 ℃ 次

【肖智博的回答(1142票)】:

2014.2.1更新,由於經常接到私信要求在這個書單之內再推薦兩三本,每個人的行業背景也不一樣,所以就把下面的書單歸類整理一下。

入門讀物:

  1. 深入淺出數據分析 (豆瓣) 這書挺簡單的,基本的內容都涉及了,說得也比較清楚,最後談到了R是大加分。難易程度:非常易。
  2. 啤酒與尿布 (豆瓣) 通過案例來說事情,而且是最經典的例子。難易程度:非常易。
  3. 數據之美 (豆瓣) 一本介紹性的書籍,每章都解決一個具體的問題,甚至還有代碼,對理解數據分析的應用領域和做法非常有幫助。難易程度:易。
  4. 數學之美 (豆瓣) 這本書非常棒啦,入門讀起來很不錯!

數據分析:

  1. SciPy and NumPy (豆瓣) 這本書可以歸類為數據分析書吧,因為numpy和scipy真的是非常強大啊。

  2. Python for Data Analysis (豆瓣) 作者是Pandas這個包的作者,看過他在Scipy會議上的演講,實例非常強!

  3. Bad Data Handbook (豆瓣) 很好玩的書,作者的角度很不同。

適合入門的教程:

  1. 集體智慧編程 (豆瓣) 學習數據分析、數據挖掘、機器學習人員應該仔細閱讀的第一本書。作者通過實際例子介紹了機器學習和數據挖掘中的算法,淺顯易懂,還有可執行的Python代碼。難易程度:中。
  2. Machine Learning in Action (豆瓣) 用人話把複雜難懂的機器學習算法解釋清楚了,其中有零星的數學公式,但是是以解釋清楚為目的的。而且有Python代碼,大讚!目前中科院的王斌老師(微博:王斌_ICTIR)已經翻譯這本書了 機器學習實戰 (豆瓣)。這本書本身質量就很高,王老師的翻譯質量也很高。難易程度:中。我帶的研究生入門必看數目之一!
  3. Building Machine Learning Systems with Python (豆瓣) 雖然是英文的,但是由於寫得很簡單,比較理解,又有 Python 代碼跟著,輔助理解。
  4. 數據挖掘導論 (豆瓣) 最近幾年數據挖掘教材中比較好的一本書,被美國諸多大學的數據挖掘課作為教材,沒有推薦Jiawei Han老師的那本書,因為個人覺得那本書對於初學者來說不太容易讀懂。難易程度:中上。
  5. Machine Learning for Hackers (豆瓣) 也是通過實例講解機器學習算法,用R實現的,可以一邊學習機器學習一邊學習R。

稍微專業些的:

  1. Introduction to Semi-Supervised Learning (豆瓣) 半監督學習必讀必看的書。

  2. Learning to Rank for Information Retrieval (豆瓣) 微軟亞院劉鐵巖老師關於LTR的著作,啥都不說了,推薦!

  3. Learning to Rank for Information Retrieval and Natural Language Processing (豆瓣) 李航老師關於LTR的書,也是當時他在微軟亞院時候的書,可見微軟亞院對LTR的研究之深,貢獻之大。
  4. 推薦系統實踐 (豆瓣) 這本書不用說了,研究推薦系統必須要讀的書,而且是第一本要讀的書。
  5. Graphical Models, Exponential Families, and Variational Inference (豆瓣) 這個是Jordan老爺子和他的得意門徒 Martin J Wainwright 在 Foundation of Machine Learning Research上的創刊號,可以免費下載,比較難懂,但是一旦讀通了,graphical model的相關內容就可以踏平了。
  6. Natural Language Processing with Python (豆瓣) NLP 經典,其實主要是講 NLTK 這個包,但是啊,NLTK 這個包幾乎涵蓋了 NLP 的很多內容了啊!

機器學習教材:

  1. The Elements of Statistical Learning (豆瓣) 這本書有對應的中文版:統計學習基礎 (豆瓣)。書中配有R包,非常贊!可以參照著代碼學習算法。
  2. 統計學習方法 (豆瓣) 李航老師的扛鼎之作,強烈推薦。難易程度:難。
  3. Machine Learning (豆瓣) 去年出版的新書,作者Kevin Murrphy教授是機器學習領域中年少有為的代表。這書是他的集大成之作,寫完之後,就去Google了,產學研結合,沒有比這個更好的了。

  4. Machine Learning (豆瓣) 這書和上面的書不是一本!這書叫:Machine Learning: An Algorithmic Perspective 之前做過我帶的研究生教材,由於配有代碼,所以理解起來比較容易。

  5. Pattern Recognition And Machine Learning (豆瓣) 經典中的經典。
  6. Bayesian Reasoning and Machine Learning (豆瓣) 看名字就知道了,徹徹底底的Bayesian學派的書,裡面的內容非常多,有一張圖將機器學習中設計算法的關係總結了一下,很棒。
  7. Probabilistic Graphical Models (豆瓣) 鴻篇巨製,這書誰要是讀完了告訴我一聲。

  8. Convex Optimization (豆瓣) 凸優化中最好的教材,沒有之一了。課程也非常棒,Stephen老師拿著紙一步一步推到,圖一點一點畫,太棒了。

【HanHsiao的回答(24票)】:

一、引言

肖智博已經說得很全面了,再補充一些:)

之前回答過這類問題,有興趣的話建議先看一看:

  • 做數據分析不得不看的書有哪些?

  • 如何系統地學習數據挖掘?

  • 數據挖掘的系統教程是怎樣的,包含哪些教材?

二、因為問題已經更新到了馬年,所以推薦幾本2014年剛出的數據科學好書。(網上已經有PDF版可以下載,此處不再給出)

  • 《Doing Data Science: Straight Talk from the Frontline》:Doing Data Science (豆瓣)

作者之一Rachel Schutt本科在密歇根大學學習數學,同時擁有紐約大學數學碩士學位,以及斯坦福大學工程經濟系統和運籌學雙碩士學位,美國哥倫比亞大學統計學博士學位,而後在谷歌研究所擔任統計學專家。Johnson研究實驗室的高級科學家兼創始人之一,目前在哥倫比亞大學講授「數據科學導論」(Introduction to Data Science)課程。她提出了數據科學家的概念即「計算機科學家、軟件工程師和統計學家的混合體。」另一位作者Cathy O』Neil是哈佛大學數學博士,麻省理工學院數學系博士後,目前在華爾街的德劭基金(D.E.Shaw)做quant。(總之是兩個大牛XD)

本書前面幾個章節大致介紹了數據分析法、一些機器學習算法、線性回歸和邏輯回歸、樸素貝葉斯等等。其中有一些內容需要一些數學基礎才能吃透。 第六到十章節是本書的精華,詳細介紹了如何利用金融及社交網絡中的數據進行數據建模分析,值得反覆回味。

  • 《Agile Data Science: Building Data Analytics Applications with Hadoop》:Agile Data Science (豆瓣)

本書適合剛入行的數據愛好者以及有兩三年工作經驗數據科學家,作者立志打造一個full-stack解決方案(包括開發框架、運行環境等,有了它無需再下載別的軟件)來減少前期在數據準備上必須花費的大量時間。此外書中的一些例子放在了GitHub上,建議一邊看書一邊DIY。

  • 《Fast Data Processing with Spark》:Fast Data Processing with Spark (豆瓣)

目前市面上關於Spark的書籍不多,這本120多頁的薄書可以當做預熱。Spark同Hadoop一樣是基於Mapreduce算法實現的分佈式計算,不同的是任務的中間輸出結果可以保存在內存中無需讀寫HDFS,所以更加適合需要進行反覆迭代的機器學習算法實驗。作者Holden Karau曾在亞馬遜數據挖掘項目組,目前是一名在谷歌工作的軟件研發工程師。

以上,有時間再來更新。祝挖掘快樂:)

【小斯的回答(34票)】:

被最高答案私信了,所以共享刪除了,雖然整理的書其實來自好幾個書單

【知乎用戶的回答(13票)】:

個人覺得Pattern Recognition And Machine Learning這本書,絕對是經典中的經典,值得從事有關機器學習研究和應用的朋友們,好好研讀

【知乎用戶的回答(6票)】:

推薦兩本入門瞭解概念的書:

《New Internet:大數據挖掘》 —— 是MS的一位資深專家寫的,從算法到工具,再到DM在日誌分析、營銷郵件、電商、移動等業務中的實際應用,內容有較全面的介紹,語言淺顯易懂,作DM領域進門讀物很不錯。並且在每章節後都有提供本章提到的工具或數據來源,方便學習。

《數據挖掘與數據化運營實戰:思路、方法、技巧與應用》—— 這是ALi的一位數據專家寫的,從書名能看出這本偏運營實踐,裡面有很多電商方面的實踐案例。當然也有幾章節概述DM工具和算法,作為入門介紹。

【Louise的回答(3票)】:

《數據挖掘技術(第3版)——應用於市場營銷、銷售與客戶關係管理》

對做數據分析的從業人員也有幫助,不深

【江海濤的回答(4票)】:

推薦陳哲的"數據分析:企業的賢內助",讀起來有樂趣,案例比較分許,適合初學者

【何史提的回答(2票)】:

  • Bishop, Pattern Recognition and Machine Learning
  • Manning, Raghaven, Schutz, Introduction to Information Retrieval
  • Janert, Data Analysis with Open Source Tools
  • Segaran, Programming Collective Intelligence
  • Hastie, Tibshirani, Friedman, The Elements of Statistical Learning

【冉敏的回答(1票)】:

在看數據之魅。。。感覺還不錯

【劉一鳴的回答(3票)】:

怎麼感覺像賣書的軟文,第一批的8和10是需要好好研究的。

第二批的有一半沒看過。主要是越看越覺得偏數學,現在乾脆就直接學數學了。

數學的教材和資料網上到處都是,coursera,udacity, khan academy 都有很多,mit open course甚至有全套的。

如果只是基本應用的話, 可以從第二批的3,10,11入手,3用的是R語言講的。

【王繼達的回答(2票)】:

我理解的數據分析和數據挖掘是50%的技術能力+50%的業務能力,不太清楚LZ的問題是偏業務向還是科研向的,數據分析向還能推薦一些書,數據挖掘向等我修煉好再推薦(希望能比較快)^_^

1、誰說菜鳥不會數據分析 (豆瓣) 其實EXCEL在工作中還是大殺器,原因是易傳承,好傳播

2、調查研究中的統計分析法 (豆瓣) 統計學肯定要瞭解,統計學書都可以的

3、SPSS統計分析精要與實例詳解 (豆瓣) SPSS的內容,我是從這本書開始看的,因為這本書每個方法都有案例,可以直接看案例明白理論的作用,再加上 SPSS官方說明文檔 基本上就夠了

4、數據挖掘與數據化運營實戰 (豆瓣) ali的專家寫的,看了這本書能理解很多方法的適用場景,適用場景和數據解讀能力對於業務能力要求很高。

水平有限,不停修煉不停補充。

【MuXiaoyu的回答(1票)】:

youtube上有一門UBC的課很不錯,另外凸優化那本書的作者也有教學視頻

【知乎用戶的回答(2票)】:

如果要實用而不是學理論的話,

數據倉庫工具箱:維度建模的完全指南》

《Microsoft數據倉庫工具箱》

《SQL Server 2008 分析服務從入門到精通》

《SQL Server 2008 報表服務從入門到精通》

【ShanShan的回答(1票)】:

Video Listing

machine learning

通俗易懂,接地氣!適合沒有任何engineering 背景入門!

Andrew Ng

最近看deep learning, 發現Goolgle brain project創始人也是他!!繼續膜拜

【BoMa的回答(0票)】:

用python的,在看機器學習實戰,非常有啟發。

【Bumblebee的回答(0票)】:

【RichieFeng的回答(0票)】:

Last semester, I took the class "data mining". The instructor was Jiawei Han. I think he might be the expert in field of data mining, though the class was easy for me.

【2gua的回答(0票)】:

初學者,還是只看一本《數據挖掘導論》吧!!

【知乎用戶的回答(0票)】:

推薦一本入門書,是之前上數據挖掘時候的教材,看完可以對數據挖掘有個大概認識,瞭解數據挖掘的分類和一些技術方法和具體算法

www-users.cs.umn.edu/~k

Introduction to Data Mining

Pang-Ning Tan, Michigan State University,

Michael Steinbach, University of Minnesota

Vipin Kumar, University of Minnesota

【PennyWong的回答(0票)】:

補充一本比較新的

mining of massive data sets

jeffery ullman的書,google一下可以在stanford的網站上下到,裡面有一些很新很流行很專業的方法。看完可以對dataset的處理這一塊有個基本的把握

標籤:-數據分析 -數據挖掘 -互聯網數據分析


相關資源:





給我留言