摘要: 本文讲解如何使用R语言进行 KMeans 均值聚类分析,并以一个关于人口出生率死亡率的实例演示具体分析步骤。 阅读全文
posted @ 2017-05-20 22:02 穆晨 阅读(4016) 评论(0) 推荐(0) 编辑
摘要: 随机森林非常像《机器学习实践》里面提到过的那个AdaBoost算法,但区别在于它没有迭代,还有就是森林里的树长度不限制。 因为它是没有迭代过程的,不像AdaBoost那样需要迭代,不断更新每个样本以及子分类器的权重。因此模型相对简单点,不容易出现过拟合。 阅读全文
posted @ 2017-05-20 21:36 穆晨 阅读(26569) 评论(0) 推荐(0) 编辑
摘要: 本文讲解如何使用R语言中e1071包中的SVM函数进行分类操作,并以一个关于鸢尾花分类的实例演示具体分类步骤。 阅读全文
posted @ 2017-05-20 21:21 穆晨 阅读(2071) 评论(0) 推荐(0) 编辑
摘要: 这部分也许是数据预处理最为关键的一个阶段。 如何对数据降维是一个很有挑战,很有深度的话题,很多理论书本均有详细深入的讲解分析。 本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA),并给出具体的实现步骤。 阅读全文
posted @ 2017-05-20 21:04 穆晨 阅读(5106) 评论(0) 推荐(1) 编辑
摘要: 在进行缺失,异常处理之后,往往要对数据进行变换。 变换有多种情况,主要是以下两种: - 规范化:对数据进行一定比例的缩放,让它实质落入某个具体区间。 - 离散化:将连续型数据转化为离散化。 阅读全文
posted @ 2017-05-20 20:38 穆晨 阅读(904) 评论(0) 推荐(0) 编辑
摘要: 数据中如果有某个值偏离该列其他值比较离谱,那么就有可能是一个异常的值。在数据预处理中,自然需要把这个异常值检测出来,然后剔除掉,或者光滑掉,或者其他各种方法进行处理。 需要注意的是,本文仅介绍最为基础的单维度异常检测及处理方法,而在实际应用中更多用到的是多维度异常检测,这部分得到时结合具体项目学习。 阅读全文
posted @ 2017-05-20 20:32 穆晨 阅读(2746) 评论(0) 推荐(0) 编辑
摘要: 在对数据有了大致的了解以后,就需要对获取到的数据进行一个预处理了。预处理的过程并不简单,大致来说分成缺失值处理,异常值处理,数据归约等等 (可根据实际情况对这些阶段进行科学的取舍)。 下面将对这几个阶段一个个讲解。(本文中测试数据集nhanes2来自包lattice) 阅读全文
posted @ 2017-05-20 20:22 穆晨 阅读(2105) 评论(0) 推荐(0) 编辑
摘要: R语言的强大之处在于统计和作图。其中统计部分的内容很多很强大,因此会在以后的实例中逐步介绍;而作图部分的套路相对来说是比较固定的,现在可以先对它做一个总体的认识。 在上一篇文章中,介绍了使用graphics库进行绘图的方法,而本文将引入一个更为强大的库 --- ggplot2,它能做出各式各样,非常酷炫的统计图(甚至地图,热图等)。 本文将结合一个实际项目中的例子讲解如何使用ggplot2绘图。 阅读全文
posted @ 2017-05-20 20:10 穆晨 阅读(3178) 评论(0) 推荐(0) 编辑
摘要: 数据可视化是数据挖掘非常重要的一个环节,它不单在查阅了解数据环节使用到,在整个数据挖掘的流程中都会使用到。 因为数据可视化不单可以形象地展示数据,让你对数据有更好的总体上的了解,而且还可以让你清晰的将自己的观点表述出来。因此不仅仅是在项目实施环节,在与客户谈需求或者写论文时,数据可视化也能帮到你。 阅读全文
posted @ 2017-05-20 19:52 穆晨 阅读(2261) 评论(0) 推荐(0) 编辑
摘要: 本文讲解如何使用 R 语言对数据集进行总体上的了解。 在进行数据挖掘之前,我们有必要对挖掘的数据集对象有一个总体的了解。本文采用具体实例讲解的方式,详细演示对一个数据集的分析过程。 阅读全文
posted @ 2017-05-20 19:27 穆晨 阅读(1401) 评论(0) 推荐(0) 编辑
摘要: Django是一个开放源代码的Web应用框架,由Python写成。它和J2EE一样,采用了MVC的软件设计模式,即模型M,视图V和控制器C。 本文将讲解DJango框架,并从实际应用的角度讲解一个DJango项目,此项目架构的网站可远程获取MySQL数据库数据并展示到网页上。 阅读全文
posted @ 2017-05-20 17:50 穆晨 阅读(1101) 评论(1) 推荐(0) 编辑
摘要: Python提供了一个比较实用的爬虫框架 - Scrapy。在这个框架下只要定制好指定的几个模块,就能实现一个爬虫。 本文将讲解Scrapy框架的基本体系结构,以及使用这个框架定制爬虫的具体步骤。 阅读全文
posted @ 2017-05-20 17:30 穆晨 阅读(993) 评论(0) 推荐(0) 编辑
摘要: 本文讲解在Python语言中使用SQLAlchemy库操纵MySQL数据库的方法。 由于具体内容涉及较多,本文仅以插入及展示数据为例,更多内容请查阅有关文档。 阅读全文
posted @ 2017-05-20 17:14 穆晨 阅读(762) 评论(0) 推荐(0) 编辑
摘要: 本文讲解在Python语言中使用MySQLdb库操纵MySQL数据库的方法。 阅读全文
posted @ 2017-05-20 17:05 穆晨 阅读(1045) 评论(0) 推荐(0) 编辑
摘要: 经过2节对MovieLens数据集的学习,想必读者对MovieLens数据集认识的不错了;同时也顺带回顾了些Spark编程技巧,Python数据分析技巧。 而本节将是让人兴奋的一节,它将实现一个基于Spark的推荐系统引擎。 阅读全文
posted @ 2017-05-20 16:40 穆晨 阅读(20975) 评论(0) 推荐(5) 编辑
摘要: 在对数据进行了初步探索后,想必读者对MovieLens数据集有了感性认识。而在数据挖掘/推荐引擎运行前,往往需要对数据预处理。预处理的重要性不言而喻,甚至比数据挖掘/推荐系统本身还重要。 然而完整的数据预处理工作会涉及到:缺失值,异常值,口径统一,去重,特征提取等等等等,可以单写一本书了,本文无法一一介绍。 本文仅就特征提取这一话题进行粗略讨论并展示。 阅读全文
posted @ 2017-05-20 16:39 穆晨 阅读(5544) 评论(0) 推荐(0) 编辑
摘要: MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。 这个数据集经常用来做推荐系统,机器学习算法的测试数据集。尤其在推荐系统领域,很多著名论文都是基于这个数据集的。(PS: 它是某次具有历史意义的推荐系统竞赛所用的数据集)。 阅读全文
posted @ 2017-05-20 12:29 穆晨 阅读(12965) 评论(2) 推荐(4) 编辑
摘要: 对于Hadoop集群来说,节点损坏是非常常见的现象。 而Hadoop一个很大的特点就是某个节点的损坏,不会影响到整个分布式任务的运行。 下面就来分析Hadoop平台是如何做到的。 阅读全文
posted @ 2017-05-20 11:12 穆晨 阅读(792) 评论(0) 推荐(0) 编辑
摘要: 在MapReduce程序中,待处理的数据最开始是放在HDFS上的,这点无异议。 接下来,数据被会被送往一个个Map节点中去,这也无异议。 下面问题来了:数据在被Map节点处理完后,再何去何从呢? 阅读全文
posted @ 2017-05-20 10:47 穆晨 阅读(726) 评论(0) 推荐(0) 编辑
摘要: 从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情。 那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易" 地实现分布式运行? 阅读全文
posted @ 2017-05-20 10:42 穆晨 阅读(1292) 评论(0) 推荐(0) 编辑