随笔分类 - 数据挖掘
摘要:与分类不同,聚类是在没有给定分类的情况下,根据数据相似度进行分组的一种方法。聚类模型可以建立在无类标记的数据上,是一种非监督学习算法。聚类根据数据自身的距离或相似度划分为若干组,划分的原则是组内距离最小化,而组间距离最大化。如下图所示:常见的聚类算法如下:K-Means、K-中心点、系统聚类K-Means聚类算法K-Means算法是典型的基于距离的非层次聚类算法,在最下化误差函数的基础上将数据划分...
阅读全文
摘要:拿电商行业举例,经常会遇到以下问题:如果基于商品的历史销售情况,以及节假日、气候、竞争对手等影响因素,对商品的销量进行趋势预测?如何预测未来一段时间哪些客户会流失,哪些客户可能会成为VIP用户?如果预测一种新商品的销售量,以及哪种类型的客户会比较喜欢?除此之外,运营部门需要通过数据分析来了解具有某些特征的客户的消费习惯,管理人员希望了解下一个月的销售收入等,这些都是分类与预测的日志。分类和预测是预...
阅读全文
摘要:决策树在分类、预测、规则提取等领域有着广泛的应用。决策树是一种树状结果,它的每一个叶节点对应一个分类。构造决策树的核心问题是:在每一步如何选择适当的属性对样本做拆分。对于分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程。常见的决策树算法如下:ID3算法C4.5算法C
阅读全文
摘要:对数据质量进行简单的分析后,我们就可以开始来分析数据的特征分析了。数据的特征分析可以从以下几个方面开展:分布分析对比分析统计量分析周期性分析相关性分析通过以上5种方式,可以找到数据中存在的某种特征。分布分析分布分析很容易理解,就是理解数据的分布情况。例如:在0-100区间有多少数据、100-1000
阅读全文
摘要:拿到样本数据集之后,我们在进行数据挖掘之前,需要对样本数据集进行一个初步的了解。我们想要知道,这个样本数据集中,是否存在某些明显的规律或者是趋势,是否存在某些异常的数据值。我们可以通过验证数据集的数据质量、以图形的方式展示数据,或者计算某些重要的特征值来了解数据集。整个了解数据集的过程就是探索数据的
阅读全文
摘要:Python环境搭建本次入门系列将使用Python作为开发语言。要使用Python语言,我们先来搭建Python开发平台。我们将基于Python 2.7版本、以及Python的开发发行版本Anaconda版本来开发。Anaconda指的是一个开源的Python发行版本,其包含了conda、Pytho
阅读全文
摘要:伴随着信息化系统建设的发展,各行各业的中大型企业都存储了大量的业务数据。很多的企业想要通过对这些数据的分析,来发现新的商机以及从这些数据中找到提高盈利的方法。大部分的企业,都是凭借管理人员的自身个人经验来开展这项工作。如果有一套系统,能够自动地或者半自动地发现相关的知识和解决方案,这样将会有效地提高
阅读全文

浙公网安备 33010602011771号