Python机器学习及实践_从零开始通往KAGGLE竞赛之路PDF高清完整版免费下载|百度云盘|python基础入门学习教程

Python机器学习及实践_从零开始通往KAGGLE竞赛之路PDF高清完整版百度网盘免费下载

提取码:ceqs

豆瓣评分:

内容读者

本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读者熟悉并且掌握当下最流行的机器学习、数据挖掘与自然语言处理工具,如Scikitlearn、NLTK、Pandas、gensim、XGBoost、Google Tensorflow等。 全书共分4章。第1章简介篇,介绍机器学习概念与Python编程知识;第2章基础篇,讲述如何使用Scikitlearn作为基础机器学习工具;第3章进阶篇,涉及怎样借助高级技术或者模型进一步提升既有机器学习系统的性能;第4章竞赛篇,以Kaggle平台为对象,帮助读者一步步使用本书介绍过的模型和技巧,完成三项具有代表性的竞赛任务。

致广大读者:

欢迎各位购买和阅读《Python机器学习及实践》!.
本书的编写旨在帮助大量对机器学习和数据挖掘应用感兴趣的读者朋友,整合并实 践时下最流行的基于Python 语言的程序库,如Sciki-learn 、Pandas. NLTK、gensim、 XGBoost.Tensorflow等;针对现实中的科研问题,甚至是Kaggle竞赛(当前世界最流行 的机器学习竞赛平台)中的分析任务,快速搭建有效的机器学习系统。
读者在阅读了几个章节之后,就会发现这本书的特别之处。作者力求减少读者对编 程技能和数学知识的过分依赖,进而降低理解本书与实践机器学习模型的门槛;并试图让 更多的兴趣爱好者体会到使用经典模型,乃至更加高效的方法解决实际问题的乐趣。同 时,作者对书中每--处的关键术语都提供了标准的英文表述,也方便读者快速查阅和理解 相关的英文文献。
由于本书不涉及对大量数学模型和复杂编程知识的讲解,因此受众非常广泛。这其 中就包括:在互联网、IT相关领域从事机器学习和数据挖掘相关任务的研发人员;于高 校就读的博士、硕士研究生,甚至是对计算机编程有初步了解的本科生;以及对机器学习 与数据挖掘竞赛感兴趣的计算机业余爱好者等。
感激父母长久以来对我的关爱。也非常感谢我在清华大学和纽约大学的导师们:郑 方、周强以及Ralph Grishman教授,对于我利用业余时间编写本书的理解和支持。特别 致谢纽约大学的Emma Zhu同学,在我写书期间所给予计算设备的帮助。最后,感谢中 国国家留学基金委为本人在美国留学期间所提供的生活资助。
最后,衷心地希望各位读者朋友能够从本书获益,同时这也是对我最大的鼓励和支 持。全书代码下载地址为: http://pan. baidu. com/s/1bGp15G.对于书中的错误,欢迎 大家批评指正,并发送至电邮:fanmiao.cslt.thu@gmail.com。我们会在本书的勘误网站

目录

第1章简介篇1

1.1机器学习综述1
1.1.1任务3
1.1.2经验5
1.1.3性能5
1.2Python编程库8
1.2.1为什么使用Python8
1.2.2Python机器学习的优势9
1.2.3NumPy & SciPy10 (Pyhton的两个库,含有数学中的大量计算,例如矩阵计算,微积分等)
1.2.4Matplotlib11 (Python的一个库,画图用的)
1.2.5Scikitlearn11 sklearn (Python的一个库,含有多种机器学习算法模块)
1.2.6Pandas11 (Python的一个库,包含了一个DataFrame类型,用来存储列表表格,并进行处理)
1.2.7Anaconda12 (编写Python的软件,集成了很多库,例如上面提到的,不用自己一个一个下载安装了)
1.3Python环境配置12
1.3.1Windows系统环境12
1.3.2Mac OS 系统环境17
1.4Python编程基础18
1.4.1Python基本语法19 廖雪峰 和 菜鸟教程 (都是Python3编程语言快速上手的好网站)
1.4.2Python 数据类型20
1.4.3Python 数据运算22
1.4.4Python 流程控制26
1.4.5Python 函数(模块)设计28
1.4.6Python 编程库(包)的导入29
1.4.7Python 基础综合实践30
1.5章末小结

第2章基础篇34

2.1监督学习经典模型34
2.1.1分类学习35 (分类其实就是预测)
2.1.2回归预测64 (回归更偏向于“数值”和它的“连续性”)
2.2无监督学习经典模型81
2.2.1数据聚类81 (物以群分)
2.2.2特征降维91 (一个重要的作用就是 减少待处理数据中无关紧要的内容)文章!!!
2.3章末小结97

第3章进阶篇98

3.1模型实用技巧98
3.1.1特征提升99 (包含:1、特征抽取:原始数据--->特征向量(非数字类型的数字化,数字化的范围化);2、特征筛选:选择更有效的特征组合)
3.1.2模型正则化111 (用于解决过拟合)
3.1.3模型检验121 (包含:1、留一验证:例如70%用于训练,30%用于模型验证;2、交叉验证:多次留一验证,因为30%用于验证的那些数据的需求也是有讲究的,类似于多次试验选取最好的方案)
3.1.4超参数搜索122 (超参数是在开始学习过程之前设置值的参数,是需要不断测试验证的,所以说机器学习就是 调参而已)
3.2流行库/模型实践129
3.2.1自然语言处理包(NLTK)131 (针对不同的需要处理的数据类型,有对应的库去运行)
3.2.2词向量(Word2Vec)技术133
3.2.3XGBoost模型138
3.2.4Tensorflow框架140
3.3章末小结152

第4章实战篇153

4.1Kaggle平台简介153
4.2Titanic罹难乘客预测157
4.3IMDB影评得分估计165
4.4MNIST手写体数字图片识别174
4.5章末小结180

posted @ 2020-07-22 15:43  鸟菜小  阅读(1213)  评论(0)    收藏  举报