数据挖掘 - 随笔分类 - 斜杠代码日记

「数据挖掘入门序列」数据挖掘模型分类与预测 - 聚类

摘要：与分类不同，聚类是在没有给定分类的情况下，根据数据相似度进行分组的一种方法。聚类模型可以建立在无类标记的数据上，是一种非监督学习算法。聚类根据数据自身的距离或相似度划分为若干组，划分的原则是组内距离最小化，而组间距离最大化。如下图所示：常见的聚类算法如下：K-Means、K-中心点、系统聚类K-Means聚类算法K-Means算法是典型的基于距离的非层次聚类算法，在最下化误差函数的基础上将数据划分... 阅读全文

posted @ 2020-01-31 16:16 斜杠代码日记阅读(903) 评论(0) 推荐(0)

「数据挖掘入门系列」数据挖掘模型之分类和预测 - 逻辑回归

摘要：拿电商行业举例，经常会遇到以下问题：如果基于商品的历史销售情况，以及节假日、气候、竞争对手等影响因素，对商品的销量进行趋势预测？如何预测未来一段时间哪些客户会流失，哪些客户可能会成为VIP用户？如果预测一种新商品的销售量，以及哪种类型的客户会比较喜欢？除此之外，运营部门需要通过数据分析来了解具有某些特征的客户的消费习惯，管理人员希望了解下一个月的销售收入等，这些都是分类与预测的日志。分类和预测是预... 阅读全文

posted @ 2020-01-30 16:54 斜杠代码日记阅读(1140) 评论(0) 推荐(0)

「数据挖掘入门系列」数据挖掘模型之分类与预测 - 决策树

摘要：决策树在分类、预测、规则提取等领域有着广泛的应用。决策树是一种树状结果，它的每一个叶节点对应一个分类。构造决策树的核心问题是：在每一步如何选择适当的属性对样本做拆分。对于分类问题，从已知类标记的训练样本中学习并构造出决策树是一个自上而下，分而治之的过程。常见的决策树算法如下：ID3算法C4.5算法C 阅读全文

posted @ 2020-01-30 16:49 斜杠代码日记阅读(980) 评论(0) 推荐(0)

「数据挖掘入门系列」数据探索之数据特征分析

摘要：对数据质量进行简单的分析后，我们就可以开始来分析数据的特征分析了。数据的特征分析可以从以下几个方面开展：分布分析对比分析统计量分析周期性分析相关性分析通过以上5种方式，可以找到数据中存在的某种特征。分布分析分布分析很容易理解，就是理解数据的分布情况。例如：在0-100区间有多少数据、100-1000 阅读全文

posted @ 2020-01-30 11:25 斜杠代码日记阅读(1457) 评论(0) 推荐(0)

「数据挖掘入门系列」数据探索之数据质量分析

摘要：拿到样本数据集之后，我们在进行数据挖掘之前，需要对样本数据集进行一个初步的了解。我们想要知道，这个样本数据集中，是否存在某些明显的规律或者是趋势，是否存在某些异常的数据值。我们可以通过验证数据集的数据质量、以图形的方式展示数据，或者计算某些重要的特征值来了解数据集。整个了解数据集的过程就是探索数据的阅读全文

posted @ 2020-01-29 18:09 斜杠代码日记阅读(671) 评论(0) 推荐(0)

「数据挖掘入门系列」Python快速入门

摘要：Python环境搭建本次入门系列将使用Python作为开发语言。要使用Python语言，我们先来搭建Python开发平台。我们将基于Python 2.7版本、以及Python的开发发行版本Anaconda版本来开发。Anaconda指的是一个开源的Python发行版本，其包含了conda、Pytho 阅读全文

posted @ 2020-01-29 16:43 斜杠代码日记阅读(440) 评论(0) 推荐(0)

「数据挖掘入门系列」数据挖掘基础

摘要：伴随着信息化系统建设的发展，各行各业的中大型企业都存储了大量的业务数据。很多的企业想要通过对这些数据的分析，来发现新的商机以及从这些数据中找到提高盈利的方法。大部分的企业，都是凭借管理人员的自身个人经验来开展这项工作。如果有一套系统，能够自动地或者半自动地发现相关的知识和解决方案，这样将会有效地提高阅读全文

posted @ 2020-01-29 12:40 斜杠代码日记阅读(396) 评论(0) 推荐(0)

斜杠代码日记

是的！我就是那只笨鸟！

随笔分类 - 数据挖掘

公告