随笔分类 -  【04-★】数据挖掘_R语言实践

摘要:本文讲解如何使用R语言进行 KMeans 均值聚类分析,并以一个关于人口出生率死亡率的实例演示具体分析步骤。 阅读全文
posted @ 2017-05-20 22:02 穆晨 阅读(4641) 评论(0) 推荐(1)
摘要:随机森林非常像《机器学习实践》里面提到过的那个AdaBoost算法,但区别在于它没有迭代,还有就是森林里的树长度不限制。 因为它是没有迭代过程的,不像AdaBoost那样需要迭代,不断更新每个样本以及子分类器的权重。因此模型相对简单点,不容易出现过拟合。 阅读全文
posted @ 2017-05-20 21:36 穆晨 阅读(27785) 评论(0) 推荐(0)
摘要:本文讲解如何使用R语言中e1071包中的SVM函数进行分类操作,并以一个关于鸢尾花分类的实例演示具体分类步骤。 阅读全文
posted @ 2017-05-20 21:21 穆晨 阅读(2334) 评论(0) 推荐(0)
摘要:这部分也许是数据预处理最为关键的一个阶段。 如何对数据降维是一个很有挑战,很有深度的话题,很多理论书本均有详细深入的讲解分析。 本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA),并给出具体的实现步骤。 阅读全文
posted @ 2017-05-20 21:04 穆晨 阅读(5824) 评论(0) 推荐(1)
摘要:在进行缺失,异常处理之后,往往要对数据进行变换。 变换有多种情况,主要是以下两种: - 规范化:对数据进行一定比例的缩放,让它实质落入某个具体区间。 - 离散化:将连续型数据转化为离散化。 阅读全文
posted @ 2017-05-20 20:38 穆晨 阅读(1011) 评论(0) 推荐(0)
摘要:数据中如果有某个值偏离该列其他值比较离谱,那么就有可能是一个异常的值。在数据预处理中,自然需要把这个异常值检测出来,然后剔除掉,或者光滑掉,或者其他各种方法进行处理。 需要注意的是,本文仅介绍最为基础的单维度异常检测及处理方法,而在实际应用中更多用到的是多维度异常检测,这部分得到时结合具体项目学习。 阅读全文
posted @ 2017-05-20 20:32 穆晨 阅读(3088) 评论(0) 推荐(0)
摘要:在对数据有了大致的了解以后,就需要对获取到的数据进行一个预处理了。预处理的过程并不简单,大致来说分成缺失值处理,异常值处理,数据归约等等 (可根据实际情况对这些阶段进行科学的取舍)。 下面将对这几个阶段一个个讲解。(本文中测试数据集nhanes2来自包lattice) 阅读全文
posted @ 2017-05-20 20:22 穆晨 阅读(2318) 评论(0) 推荐(0)
摘要:R语言的强大之处在于统计和作图。其中统计部分的内容很多很强大,因此会在以后的实例中逐步介绍;而作图部分的套路相对来说是比较固定的,现在可以先对它做一个总体的认识。 在上一篇文章中,介绍了使用graphics库进行绘图的方法,而本文将引入一个更为强大的库 --- ggplot2,它能做出各式各样,非常酷炫的统计图(甚至地图,热图等)。 本文将结合一个实际项目中的例子讲解如何使用ggplot2绘图。 阅读全文
posted @ 2017-05-20 20:10 穆晨 阅读(3450) 评论(0) 推荐(0)
摘要:数据可视化是数据挖掘非常重要的一个环节,它不单在查阅了解数据环节使用到,在整个数据挖掘的流程中都会使用到。 因为数据可视化不单可以形象地展示数据,让你对数据有更好的总体上的了解,而且还可以让你清晰的将自己的观点表述出来。因此不仅仅是在项目实施环节,在与客户谈需求或者写论文时,数据可视化也能帮到你。 阅读全文
posted @ 2017-05-20 19:52 穆晨 阅读(2479) 评论(0) 推荐(0)
摘要:本文讲解如何使用 R 语言对数据集进行总体上的了解。 在进行数据挖掘之前,我们有必要对挖掘的数据集对象有一个总体的了解。本文采用具体实例讲解的方式,详细演示对一个数据集的分析过程。 阅读全文
posted @ 2017-05-20 19:27 穆晨 阅读(1496) 评论(0) 推荐(0)