随笔档案「2017年5月20日」：第十篇：K均值聚类(KMeans) ... - 穆晨

2017年5月20日

摘要：本文讲解如何使用R语言进行 KMeans 均值聚类分析，并以一个关于人口出生率死亡率的实例演示具体分析步骤。阅读全文

posted @ 2017-05-20 22:02 穆晨阅读(4647) 评论(0) 推荐(1)

摘要：随机森林非常像《机器学习实践》里面提到过的那个AdaBoost算法，但区别在于它没有迭代，还有就是森林里的树长度不限制。因为它是没有迭代过程的，不像AdaBoost那样需要迭代，不断更新每个样本以及子分类器的权重。因此模型相对简单点，不容易出现过拟合。阅读全文

posted @ 2017-05-20 21:36 穆晨阅读(27793) 评论(0) 推荐(0)

第八篇：支持向量机 (Support Vector Machine)

摘要：本文讲解如何使用R语言中e1071包中的SVM函数进行分类操作，并以一个关于鸢尾花分类的实例演示具体分类步骤。阅读全文

posted @ 2017-05-20 21:21 穆晨阅读(2336) 评论(0) 推荐(0)

第七篇：数据预处理(四) - 数据归约(PCA/EFA为例)

摘要：这部分也许是数据预处理最为关键的一个阶段。如何对数据降维是一个很有挑战，很有深度的话题，很多理论书本均有详细深入的讲解分析。本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA)，并给出具体的实现步骤。阅读全文

posted @ 2017-05-20 21:04 穆晨阅读(5846) 评论(0) 推荐(1)

第六篇：数据预处理(三) - 数据标准化

摘要：在进行缺失，异常处理之后，往往要对数据进行变换。变换有多种情况，主要是以下两种： - 规范化：对数据进行一定比例的缩放，让它实质落入某个具体区间。 - 离散化：将连续型数据转化为离散化。阅读全文

posted @ 2017-05-20 20:38 穆晨阅读(1013) 评论(0) 推荐(0)

第五篇：数据预处理(二) - 异常值处理

摘要：数据中如果有某个值偏离该列其他值比较离谱，那么就有可能是一个异常的值。在数据预处理中，自然需要把这个异常值检测出来，然后剔除掉，或者光滑掉，或者其他各种方法进行处理。需要注意的是，本文仅介绍最为基础的单维度异常检测及处理方法，而在实际应用中更多用到的是多维度异常检测，这部分得到时结合具体项目学习。阅读全文

posted @ 2017-05-20 20:32 穆晨阅读(3093) 评论(0) 推荐(0)

第四篇：数据预处理(一) - 缺失值处理

摘要：在对数据有了大致的了解以后，就需要对获取到的数据进行一个预处理了。预处理的过程并不简单，大致来说分成缺失值处理，异常值处理，数据归约等等 (可根据实际情况对这些阶段进行科学的取舍)。下面将对这几个阶段一个个讲解。(本文中测试数据集nhanes2来自包lattice) 阅读全文

posted @ 2017-05-20 20:22 穆晨阅读(2326) 评论(0) 推荐(0)

第三篇：数据可视化 - ggplot2

摘要： R语言的强大之处在于统计和作图。其中统计部分的内容很多很强大，因此会在以后的实例中逐步介绍；而作图部分的套路相对来说是比较固定的，现在可以先对它做一个总体的认识。在上一篇文章中，介绍了使用graphics库进行绘图的方法，而本文将引入一个更为强大的库 --- ggplot2，它能做出各式各样，非常酷炫的统计图(甚至地图，热图等)。本文将结合一个实际项目中的例子讲解如何使用ggplot2绘图。阅读全文

posted @ 2017-05-20 20:10 穆晨阅读(3454) 评论(0) 推荐(0)

第二篇：数据可视化 - 基本API

摘要：数据可视化是数据挖掘非常重要的一个环节，它不单在查阅了解数据环节使用到，在整个数据挖掘的流程中都会使用到。因为数据可视化不单可以形象地展示数据，让你对数据有更好的总体上的了解，而且还可以让你清晰的将自己的观点表述出来。因此不仅仅是在项目实施环节，在与客户谈需求或者写论文时，数据可视化也能帮到你。阅读全文

posted @ 2017-05-20 19:52 穆晨阅读(2485) 评论(0) 推荐(0)

第一篇：查阅数据

摘要：本文讲解如何使用 R 语言对数据集进行总体上的了解。在进行数据挖掘之前，我们有必要对挖掘的数据集对象有一个总体的了解。本文采用具体实例讲解的方式，详细演示对一个数据集的分析过程。阅读全文

posted @ 2017-05-20 19:27 穆晨阅读(1498) 评论(0) 推荐(0)

第四篇：Web框架 - Django

摘要： Django是一个开放源代码的Web应用框架，由Python写成。它和J2EE一样，采用了MVC的软件设计模式，即模型M，视图V和控制器C。本文将讲解DJango框架，并从实际应用的角度讲解一个DJango项目，此项目架构的网站可远程获取MySQL数据库数据并展示到网页上。阅读全文

posted @ 2017-05-20 17:50 穆晨阅读(1192) 评论(1) 推荐(0)

第三篇：爬虫框架 - Scrapy

摘要： Python提供了一个比较实用的爬虫框架 - Scrapy。在这个框架下只要定制好指定的几个模块，就能实现一个爬虫。本文将讲解Scrapy框架的基本体系结构，以及使用这个框架定制爬虫的具体步骤。阅读全文

posted @ 2017-05-20 17:30 穆晨阅读(1063) 评论(0) 推荐(0)

第二篇：操纵MySQL数据库(2) - 基于ORM思想的SQLAlchemy库

摘要：本文讲解在Python语言中使用SQLAlchemy库操纵MySQL数据库的方法。由于具体内容涉及较多，本文仅以插入及展示数据为例，更多内容请查阅有关文档。阅读全文

posted @ 2017-05-20 17:14 穆晨阅读(809) 评论(0) 推荐(0)

第一篇：操纵MySQL数据库(1) - 基于MySQLdb库

摘要：本文讲解在Python语言中使用MySQLdb库操纵MySQL数据库的方法。阅读全文

posted @ 2017-05-20 17:05 穆晨阅读(1093) 评论(0) 推荐(0)

第三篇：一个Spark推荐系统引擎的实现

摘要：经过2节对MovieLens数据集的学习，想必读者对MovieLens数据集认识的不错了；同时也顺带回顾了些Spark编程技巧，Python数据分析技巧。而本节将是让人兴奋的一节，它将实现一个基于Spark的推荐系统引擎。阅读全文

posted @ 2017-05-20 16:40 穆晨阅读(21746) 评论(0) 推荐(5)

第二篇：使用Spark对MovieLens的特征进行提取

摘要：在对数据进行了初步探索后，想必读者对MovieLens数据集有了感性认识。而在数据挖掘/推荐引擎运行前，往往需要对数据预处理。预处理的重要性不言而喻，甚至比数据挖掘/推荐系统本身还重要。然而完整的数据预处理工作会涉及到：缺失值，异常值，口径统一，去重，特征提取等等等等，可以单写一本书了，本文无法一一介绍。本文仅就特征提取这一话题进行粗略讨论并展示。阅读全文

posted @ 2017-05-20 16:39 穆晨阅读(5901) 评论(0) 推荐(0)

第一篇：使用Spark探索经典数据集MovieLens

摘要： MovieLens数据集包含多个用户对多部电影的评级数据，也包括电影元数据信息和用户属性信息。这个数据集经常用来做推荐系统，机器学习算法的测试数据集。尤其在推荐系统领域，很多著名论文都是基于这个数据集的。(PS: 它是某次具有历史意义的推荐系统竞赛所用的数据集)。阅读全文

posted @ 2017-05-20 12:29 穆晨阅读(14779) 评论(2) 推荐(4)

第十一篇：Map/Reduce 工作机制分析 - 错误处理机制

摘要：对于Hadoop集群来说，节点损坏是非常常见的现象。而Hadoop一个很大的特点就是某个节点的损坏，不会影响到整个分布式任务的运行。下面就来分析Hadoop平台是如何做到的。阅读全文

posted @ 2017-05-20 11:12 穆晨阅读(852) 评论(0) 推荐(0)

第十篇：Map/Reduce 工作机制分析 - 数据的流向分析

摘要：在MapReduce程序中，待处理的数据最开始是放在HDFS上的，这点无异议。接下来，数据被会被送往一个个Map节点中去，这也无异议。下面问题来了：数据在被Map节点处理完后，再何去何从呢？阅读全文

posted @ 2017-05-20 10:47 穆晨阅读(817) 评论(0) 推荐(0)

第九篇：Map/Reduce 工作机制分析 - 作业的执行流程

摘要：从运行我们的 Map/Reduce 程序，到结果的提交，Hadoop 平台其实做了很多事情。那么 Hadoop 平台到底做了什么事情，让 Map/Reduce 程序可以如此 "轻易" 地实现分布式运行？阅读全文

posted @ 2017-05-20 10:42 穆晨阅读(1446) 评论(0) 推荐(0)

第八篇：经典案例 - 排序

摘要：在计算机领域，排序的重要性不用多说。而排序的算法，效率分析等也一直是研究的热点。本文将给出使用Hadoop分布式方案进行排序的例子，这能极大提高排序的速度，是需要重点掌握的一个案例。阅读全文

posted @ 2017-05-20 10:39 穆晨阅读(1056) 评论(0) 推荐(0)

第七篇：经典案例：数据去重

摘要：去除掉海量文件中的存在着的重复数据，并将结果输出到单个文件中。比如有文件1中有以下数据...... 阅读全文

posted @ 2017-05-20 09:04 穆晨阅读(1326) 评论(0) 推荐(0)

第六篇：Eclipse上运行第一个Hadoop实例 - WordCount(单词统计程序)

摘要：计算出文件中每个单词的频数。要求输出结果按照单词的字母顺序进行排序。每个单词和其频数占一行，单词和频数之间有间隔。比如，输入两个文件，其一内容如下...... 阅读全文

posted @ 2017-05-20 08:55 穆晨阅读(3974) 评论(0) 推荐(0)

第五篇：Hadoop流

摘要： Hadoop流提供了一个API，允许用户使用任何脚本语言编写Map函数或Reduce函数。本文对此知识点进行介绍。阅读全文

posted @ 2017-05-20 08:43 穆晨阅读(1402) 评论(0) 推荐(0)

穆晨

聚是一团火，散是满天星。

公告