数据挖掘书籍推荐
研一下开始打算做数据挖掘,之前只是做做简单的系统,大部分是OA系统,主要是想毕业以后工资客观,工作高大上,加上论文需要,决定学习数据挖掘。
入门读物:
- 深入浅出数据分析 (豆瓣) 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。
- 啤酒与尿布 (豆瓣) 通过案例来说事情,而且是最经典的例子。难易程度:非常易。
- 数据之美 (豆瓣) 一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。难易程度:易。
- 数学之美 (豆瓣) 这本书非常棒啦,入门读起来很不错!
数据分析:
- SciPy and NumPy (豆瓣) 这本书可以归类为数据分析书吧,因为numpy和scipy真的是非常强大啊。
- Python for Data Analysis (豆瓣) 作者是Pandas这个包的作者,看过他在Scipy会议上的演讲,实例非常强!
- Bad Data Handbook (豆瓣) 很好玩的书,作者的角度很不同。
适合入门的教程:
- 集体智慧编程 (豆瓣) 学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。作者通过实际例子介绍了机器学习和数据挖掘中的算法,浅显易懂,还有可执行的Python代码。难易程度:中。
- Machine Learning in Action (豆瓣) 用人话把复杂难懂的机器学习算法解释清楚了,其中有零星的数学公式,但是是以解释清楚为目的的。而且有Python代码,大赞!目前中科院的王斌老师(微博: 王斌_ICTIR)已经翻译这本书了 机器学习实战 (豆瓣)。这本书本身质量就很高,王老师的翻译质量也很高。难易程度:中。我带的研究生入门必看数目之一!
- Building Machine Learning Systems with Python (豆瓣) 虽然是英文的,但是由于写得很简单,比较理解,又有 Python 代码跟着,辅助理解。
- 数据挖掘导论 (豆瓣) 最近几年数据挖掘教材中比较好的一本书,被美国诸多大学的数据挖掘课作为教材,没有推荐Jiawei Han老师的那本书,因为个人觉得那本书对于初学者来说不太容易读懂。难易程度:中上。
- Machine Learning for Hackers (豆瓣) 也是通过实例讲解机器学习算法,用R实现的,可以一边学习机器学习一边学习R。
稍微专业些的:
- Introduction to Semi-Supervised Learning (豆瓣) 半监督学习必读必看的书。
- Learning to Rank for Information Retrieval (豆瓣) 微软亚院刘铁岩老师关于LTR的著作,啥都不说了,推荐!
- Learning to Rank for Information Retrieval and Natural Language Processing (豆瓣) 李航老师关于LTR的书,也是当时他在微软亚院时候的书,可见微软亚院对LTR的研究之深,贡献之大。
- 推荐系统实践 (豆瓣) 这本书不用说了,研究推荐系统必须要读的书,而且是第一本要读的书。
- Graphical Models, Exponential Families, and Variational Inference (豆瓣) 这个是Jordan老爷子和他的得意门徒 Martin J Wainwright 在 Foundation of Machine Learning Research上的创刊号,可以免费下载,比较难懂,但是一旦读通了,graphical model的相关内容就可以踏平了。
- Natural Language Processing with Python (豆瓣) NLP 经典,其实主要是讲 NLTK 这个包,但是啊,NLTK 这个包几乎涵盖了 NLP 的很多内容了啊!
机器学习教材:
- The Elements of Statistical Learning (豆瓣) 这本书有对应的中文版:统计学习基础 (豆瓣)。书中配有R包,非常赞!可以参照着代码学习算法。
- 统计学习方法 (豆瓣) 李航老师的扛鼎之作,强烈推荐。难易程度:难。
- Machine Learning (豆瓣) 去年出版的新书,作者Kevin Murrphy教授是机器学习领域中年少有为的代表。这书是他的集大成之作,写完之后,就去Google了,产学研结合,没有比这个更好的了。
- Machine Learning (豆瓣) 这书和上面的书不是一本!这书叫:Machine Learning: An Algorithmic Perspective 之前做过我带的研究生教材,由于配有代码,所以理解起来比较容易。
- Pattern Recognition And Machine Learning (豆瓣) 经典中的经典。
- Bayesian Reasoning and Machine Learning (豆瓣) 看名字就知道了,彻彻底底的Bayesian学派的书,里面的内容非常多,有一张图将机器学习中设计算法的关系总结了一下,很棒。
- Probabilistic Graphical Models (豆瓣) 鸿篇巨制,这书谁要是读完了告诉我一声。
- Convex Optimization (豆瓣) 凸优化中最好的教材,没有之一了。课程也非常棒,Stephen老师拿着纸一步一步推到,图一点一点画,太棒了。
以上内容均是来自于知乎。
补充:
- 《数据挖掘-市场营销、销售与客户关系管理领域应用》链接:数据挖掘技术 (豆瓣)
作者是Data Miners的创办人,有二十多年的营销和客户关系管理结合数据挖掘的经验。详细介绍了作为一个数据挖掘团队需要的知识体系,包括数据库、SAS使用、统计学、机器学习、数据可视化、如何访问用户收集需求、如何写论文与沟通等等。有条件的建议看英文原版。
- 《R in Action-Data Analysis and Graphics with R》链接:R语言实战 (豆瓣)
R是属于GNU系统的一个自由、免费、源代码开放的软件,用于统计计算和统计制图。这本书从实用的统计研究角度逐例分析R在数据处理、模型构建、以及图形操作上的由浅入深的结合,堪称经典。
- 《数据之魅-基于开源工具的数据分析》链接:数据之魅 (豆瓣)
作者是华盛顿大学理论物理学博士。这本书是数据分析的经典之一,包含大量的R语言模拟过程及结果展示,例举了很多数据分析实例和代码。
一下来自于百度经验里的
(1) J. Han and M. Kamber, Data Mining: Concepts and Techniques.
本书从数据库角度看待数据挖掘,强调效率(Efficiency)。按照本书观点,数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中发现知识的过程。
(2) I.H. Written and E.Frank. Data Mining: Practical Machine Learnings and Techniques.
本书从机器学习角度看待数据挖掘,强调有效(Effectiveness)。按照这本书的观点,数据挖掘是从数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
(3) D. Hand, H.Mannila and P. Smith, Principle of Data Mining.
本书从统计学的角度看待数据挖掘,因为统计学是一门数学,所以本书强调数学上的正确性(Validity)。按照本书观点,数据挖掘是分析(往往是大量的)数据集以找到未曾预料的关系,并以可理解又有用的新颖方式呈现给数据用户的过程。
(4)Pang-Ning Tan, Vipin Kumar etc. Introduction to Data Mining (http://book.douban.com/subject/1465939/)。

国内目前有翻译版(http://book.douban.com/subject/1786120/),这是我现在觉得最好的数据挖掘教材。关于分类、关联规则、聚类每一主题都分两章来讲述:第一章讲基本部分,第二章讲高级部分,让人由浅入深。另有单独的一章介绍异常检测。本书的第一作者是物理背景出身,所以讲解很重视对于算法的理解(优缺点与适用范围等)。本书能找到PDF版完整的习题答案,非常适合于自学。
(5)若要从以上三本书再推荐另一本入门书,我会推荐I.H. Written的那本,这本书第I部分以输入、输出、算法、评估的脉络来讲解数据挖掘;第II部分介绍Weka软件使用。读这本书的好处读了之后马上可以用Weka来实验各种数据挖掘算法。
(6)David Hand的《数据挖掘原理》(http://book.douban.com/subject/1103515/),本书作者是一名统计学家,所以里面会涉及到数据挖掘相对于统计的独特之处的内容,非常有价值;另外,本书以约化主义的观点来看待数据挖掘算法,认为有了数据集与明确的数据挖掘任务,数据挖掘算法可以看成是{模型结构、评分函数、搜索方法、数据管理技术}的四元组,然后逐一来讲解每一数据挖掘算法组件,让人觉得清楚明了。本书的第二章“测量与数据”也是很有价值的,因为我们虽然通过数据来做推断,但是数据是通过测量理论与事实(Reality)相联系的。
(7)最不怎么推荐的是《数据挖掘:概念与技术》从书的内容看,这本书将数据挖掘看成是数据库技术的自然演化,所以第2章讲的是数据仓库与OLAP,但是这部分内容对于怎样建数据仓库其实没有太大的帮助。数据挖掘作为一门交叉学科,一般认为其最重要的三门学科基础是机器学习、统计学与数据库技术。但是个人认为随着大数据时代的来临,传统数据库技术所起的作用在减弱,因为很多进行的数据挖掘的数据根本不会先被放到数据库中,而是直接通过文件来存储。本书的第二版中虽然增加了时间序列挖掘、图挖掘、社交网络分析、多媒体挖掘等新的内容,但这只是增加了广度,而没有让我们对数据挖掘的核心部分有更深的理解。
数据挖掘十大算法
基于Clementine的数据挖掘


浙公网安备 33010602011771号