【04-★】数据挖掘_R语言实践 - 随笔分类 - 穆晨

摘要：本文讲解如何使用R语言进行 KMeans 均值聚类分析，并以一个关于人口出生率死亡率的实例演示具体分析步骤。阅读全文

posted @ 2017-05-20 22:02 穆晨阅读(4655) 评论(0) 推荐(1)

摘要：随机森林非常像《机器学习实践》里面提到过的那个AdaBoost算法，但区别在于它没有迭代，还有就是森林里的树长度不限制。因为它是没有迭代过程的，不像AdaBoost那样需要迭代，不断更新每个样本以及子分类器的权重。因此模型相对简单点，不容易出现过拟合。阅读全文

posted @ 2017-05-20 21:36 穆晨阅读(27807) 评论(0) 推荐(0)

第八篇：支持向量机 (Support Vector Machine)

摘要：本文讲解如何使用R语言中e1071包中的SVM函数进行分类操作，并以一个关于鸢尾花分类的实例演示具体分类步骤。阅读全文

posted @ 2017-05-20 21:21 穆晨阅读(2338) 评论(0) 推荐(0)

第七篇：数据预处理(四) - 数据归约(PCA/EFA为例)

摘要：这部分也许是数据预处理最为关键的一个阶段。如何对数据降维是一个很有挑战，很有深度的话题，很多理论书本均有详细深入的讲解分析。本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA)，并给出具体的实现步骤。阅读全文

posted @ 2017-05-20 21:04 穆晨阅读(5868) 评论(0) 推荐(1)

第六篇：数据预处理(三) - 数据标准化

摘要：在进行缺失，异常处理之后，往往要对数据进行变换。变换有多种情况，主要是以下两种： - 规范化：对数据进行一定比例的缩放，让它实质落入某个具体区间。 - 离散化：将连续型数据转化为离散化。阅读全文

posted @ 2017-05-20 20:38 穆晨阅读(1015) 评论(0) 推荐(0)

第五篇：数据预处理(二) - 异常值处理

摘要：数据中如果有某个值偏离该列其他值比较离谱，那么就有可能是一个异常的值。在数据预处理中，自然需要把这个异常值检测出来，然后剔除掉，或者光滑掉，或者其他各种方法进行处理。需要注意的是，本文仅介绍最为基础的单维度异常检测及处理方法，而在实际应用中更多用到的是多维度异常检测，这部分得到时结合具体项目学习。阅读全文

posted @ 2017-05-20 20:32 穆晨阅读(3103) 评论(0) 推荐(0)

第四篇：数据预处理(一) - 缺失值处理

摘要：在对数据有了大致的了解以后，就需要对获取到的数据进行一个预处理了。预处理的过程并不简单，大致来说分成缺失值处理，异常值处理，数据归约等等 (可根据实际情况对这些阶段进行科学的取舍)。下面将对这几个阶段一个个讲解。(本文中测试数据集nhanes2来自包lattice) 阅读全文

posted @ 2017-05-20 20:22 穆晨阅读(2341) 评论(0) 推荐(0)

第三篇：数据可视化 - ggplot2

摘要：R语言的强大之处在于统计和作图。其中统计部分的内容很多很强大，因此会在以后的实例中逐步介绍；而作图部分的套路相对来说是比较固定的，现在可以先对它做一个总体的认识。在上一篇文章中，介绍了使用graphics库进行绘图的方法，而本文将引入一个更为强大的库 --- ggplot2，它能做出各式各样，非常酷炫的统计图(甚至地图，热图等)。本文将结合一个实际项目中的例子讲解如何使用ggplot2绘图。阅读全文

posted @ 2017-05-20 20:10 穆晨阅读(3466) 评论(0) 推荐(0)

第二篇：数据可视化 - 基本API

摘要：数据可视化是数据挖掘非常重要的一个环节，它不单在查阅了解数据环节使用到，在整个数据挖掘的流程中都会使用到。因为数据可视化不单可以形象地展示数据，让你对数据有更好的总体上的了解，而且还可以让你清晰的将自己的观点表述出来。因此不仅仅是在项目实施环节，在与客户谈需求或者写论文时，数据可视化也能帮到你。阅读全文

posted @ 2017-05-20 19:52 穆晨阅读(2490) 评论(0) 推荐(0)

第一篇：查阅数据

摘要：本文讲解如何使用 R 语言对数据集进行总体上的了解。在进行数据挖掘之前，我们有必要对挖掘的数据集对象有一个总体的了解。本文采用具体实例讲解的方式，详细演示对一个数据集的分析过程。阅读全文

posted @ 2017-05-20 19:27 穆晨阅读(1499) 评论(0) 推荐(0)

穆晨

聚是一团火，散是满天星。

随笔分类 - 【04-★】数据挖掘_R语言实践

公告