一小时了解数据挖掘 及书籍
一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类、决策树和CRISP-DM概念
http://www.36dsj.com/archives/15450
在数据分析、挖掘方面,有哪些好书值得推荐
- 深入浅出数据分析 (豆瓣) 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。
- 啤酒与尿布 (豆瓣) 通过案例来说事情,而且是最经典的例子。难易程度:非常易。
- 数据之美 (豆瓣) 一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。难易程度:易。
- 数学之美 (豆瓣) 这本书非常棒啦,入门读起来很不错!
- SciPy and NumPy (豆瓣) 这本书可以归类为数据分析书吧,因为numpy和scipy真的是非常强大啊。
- Python for Data Analysis (豆瓣) 作者是Pandas这个包的作者,看过他在Scipy会议上的演讲,实例非常强!
- Bad Data Handbook (豆瓣) 很好玩的书,作者的角度很不同。
- 集体智慧编程 (豆瓣) 学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。作者通过实际例子介绍了机器学习和数据挖掘中的算法,浅显易懂,还有可执行的Python代码。难易程度:中。
- Machine Learning in Action (豆瓣) 用人话把复杂难懂的机器学习算法解释清楚了,其中有零星的数学公式,但是是以解释清楚为目的的。而且有Python代码,大赞!目前中科院的王斌老师(微博: 王斌_ICTIR)已经翻译这本书了 机器学习实战 (豆瓣)。这本书本身质量就很高,王老师的翻译质量也很高。难易程度:中。我带的研究生入门必看数目之一!
- Building Machine Learning Systems with Python (豆瓣) 虽然是英文的,但是由于写得很简单,比较理解,又有 Python 代码跟着,辅助理解。
- 数据挖掘导论 (豆瓣) 最近几年数据挖掘教材中比较好的一本书,被美国诸多大学的数据挖掘课作为教材,没有推荐Jiawei Han老师的那本书,因为个人觉得那本书对于初学者来说不太容易读懂。难易程度:中上。
- Machine Learning for Hackers (豆瓣) 也是通过实例讲解机器学习算法,用R实现的,可以一边学习机器学习一边学习R。
稍微专业些的:
- Introduction to Semi-Supervised Learning (豆瓣) 半监督学习必读必看的书。
- Learning to Rank for Information Retrieval (豆瓣) 微软亚院刘铁岩老师关于LTR的著作,啥都不说了,推荐!
- Learning to Rank for Information Retrieval and Natural Language Processing (豆瓣) 李航老师关于LTR的书,也是当时他在微软亚院时候的书,可见微软亚院对LTR的研究之深,贡献之大。
- 推荐系统实践 (豆瓣) 这本书不用说了,研究推荐系统必须要读的书,而且是第一本要读的书。
- Graphical Models, Exponential Families, and Variational Inference (豆瓣) 这个是Jordan老爷子和他的得意门徒 Martin J Wainwright 在 Foundation of Machine Learning Research上的创刊号,可以免费下载,比较难懂,但是一旦读通了,graphical model的相关内容就可以踏平了。
- Natural Language Processing with Python (豆瓣) NLP 经典,其实主要是讲 NLTK 这个包,但是啊,NLTK 这个包几乎涵盖了 NLP 的很多内容了啊!
机器学习教材:
- The Elements of Statistical Learning (豆瓣) 这本书有对应的中文版:统计学习基础 (豆瓣)。书中配有R包,非常赞!可以参照着代码学习算法。
- 统计学习方法 (豆瓣) 李航老师的扛鼎之作,强烈推荐。难易程度:难。
- Machine Learning (豆瓣) 去年出版的新书,作者Kevin Murrphy教授是机器学习领域中年少有为的代表。这书是他的集大成之作,写完之后,就去Google了,产学研结合,没有比这个更好的了。
- Machine Learning (豆瓣) 这书和上面的书不是一本!这书叫:Machine Learning: An Algorithmic Perspective 之前做过我带的研究生教材,由于配有代码,所以理解起来比较容易。
- Pattern Recognition And Machine Learning (豆瓣) 经典中的经典。
- Bayesian Reasoning and Machine Learning (豆瓣) 看名字就知道了,彻彻底底的Bayesian学派的书,里面的内容非常多,有一张图将机器学习中设计算法的关系总结了一下,很棒。
- Probabilistic Graphical Models (豆瓣) 鸿篇巨制,这书谁要是读完了告诉我一声。
- Convex Optimization (豆瓣) 凸优化中最好的教材,没有之一了。课程也非常棒,Stephen老师拿着纸一步一步推到,图一点一点画,太棒了。
-
大数据时代,优秀的数据分析网站
随着数据的数量级增长,促进了数据分析的火热。但很多数据分析从业人员却感觉没有很好的获取行业资讯、技术交流的平台,今天就推荐几个经常上的觉得很不错的网站给大家。大数据时代已经来临,我们一起感受数据的力量吧!
1、数据分析第一门户-数据熊猫论坛[dp论坛] http://www.datapanda.net/forum.php
由一群热爱数据行业的大学生在11年创立,内容更新快,资源涵盖面广,从数据分析软件学习,到数据资源分享等应有尽有,通过几年的发展,积累庞大的会员群,一起交流分享数据资讯。2、数据分析精选: 数据分析精选-数据分析师的网址大全
数据分析行业的”hao123”有了它一个就够了,按类别整理搜集所有相关数据行业的网站,非常实用!
3、人大经济论坛-计量经济学与统计区 http://www.pinggu.org/bbs/index.php?gid=148
业内人士都应该去过的门户,主要涉及计量经济学、统计学、数据挖掘、统计软件、数据等经济学相关问题交流统计软件交流
4、中国统计论坛 http://bbs.itongji.cn
属于中国统计网的交流论坛,中国统计论坛-BBS.iTongji.CN 提供统计软件,统计教程,统计年鉴,统计论文,统计资料下载,统计认证,培训就业资讯,技术文章学习等的专业数据分析技术论坛。
5、数据挖掘学习交流论坛 http://www.businessanalysis.cn/
统计软件CRM,Data Mining,Data analysis,SPSS,SAS,SAP ,数据挖掘学习交流论坛。
6、数据圈:数据圈论坛-国内第一家数据资源现金交易平台,淘数据,数据换钱,来数据圈吧!
数据圈论坛内容包含统计年鉴、统计公报、行业报告等数据资源的共享交流,SAS、EVEIWS、SPSS、STATA等数据软件的使用探讨、经济与管理相关学科的知识应用
7、EXCEL学习网:Excel学习网-Excel表格-Excel教程-Excel表格的基本操作
Excel学习网-公益型的EXCEL在线学习网站,助您轻松办公!
8、数据分析精选: 数据分析精选-数据分析师的网址大全数据分析行业的”hao123”有了它,按类别整理搜集所有相关数据行业的网站,非常实用!
9、数据挖掘研究院 http://www.chinakdd.com/
数据挖掘研究院,比较早的一个门户,内容比较丰富,但是欠系统性的整理,主要涉及一些工具的使用和算法的研究,有兴趣的可以去找找看。
10、S-PLUS、R统计论坛 http://www.magnsoftbi.com/forum/default.asp
是北京宏能畅然数据应用有限公司旗下的一个门户,专注于数据分析、数据挖掘与商业智能应用,S-PLUS和R软件的技术交流平台。

浙公网安备 33010602011771号