数据挖掘 - 随笔分类 - 缄默1996

发现频繁项集的方法 Apriori算法

摘要：我们是通过算法来找到数据之间的关联规则（两个物品之间可能存在很强的相关关系）和频繁项集（经常出现在一起的物品的集合）。我们是通过支持度和置信度来定义关联规则和频繁项集的一个项集支持度是指在所有数据集中出现这个项集的概率，项集可能只包含一个选项，也有可能是多个选项的组合。置信度针对于啤酒——> 阅读全文

posted @ 2019-02-23 23:49 缄默1996 阅读(3838) 评论(0) 推荐(0)

6、Apriori算法关联

该文被密码保护。

posted @ 2019-02-18 21:04 缄默1996 阅读(0) 评论(0) 推荐(0)

5、聚类

该文被密码保护。

posted @ 2019-02-17 14:59 缄默1996 阅读(3) 评论(0) 推荐(0)

4、分类（基于规则的分类、决策树、最近邻、贝叶斯、神经网络、支持向量机、Bagging、Adaboost、随机森林）

该文被密码保护。

posted @ 2019-02-16 15:58 缄默1996 阅读(5) 评论(0) 推荐(0)

3、决策树

摘要：决策树是一种类似于流程图的树结构。有二元分支树和多分支树两种。内部节点表示在一个属性上的测试，分支是代表一个测试输出，树节点代表类和类分布。决策树的生成：构建阶段是在开始时先把所有的训练样本放在根节点，然后通过选定的属性来划分样本（必须是离散值），树剪枝阶段是检测和去除训练数据中的噪声和孤立点。阅读全文

posted @ 2019-02-16 14:29 缄默1996 阅读(861) 评论(0) 推荐(0)

数据探索

摘要：三个方面来看数据探索：汇总统计、可视化和联机分析处理 1、汇总统计是用数概括数据的性质（位置度量、散布度量）频率：一个属性值的频率是数据集里属性值发生次数的百分比众数：一个属性的众数是具有最高频率的值百分位数：对于连续的数据，考虑值集的百分位数更有意义位置度量：均值和中位数散布度量：极差和阅读全文

posted @ 2019-02-16 12:09 缄默1996 阅读(190) 评论(0) 推荐(0)

数据

摘要：属性的类型 1、标称：标称属性的值仅仅只是不同的名字，即标称值只提供足够的信息以区分对象。邮编、雇员ID、颜色、性别。 2、序数：序数属性的值提供足够的信息确定对象的序。矿石硬度（好，较好，最好）、成绩、街道号码 3、区间：对于符号属性，值之间的差是有意义的，即存在测量单位。日历日期、摄氏温度华氏阅读全文

posted @ 2019-02-15 22:44 缄默1996 阅读(594) 评论(0) 推荐(0)

2、逻辑回归（logistic回归）

该文被密码保护。

posted @ 2019-02-15 20:56 缄默1996 阅读(1) 评论(0) 推荐(0)

1、线性回归

该文被密码保护。

posted @ 2019-02-15 20:33 缄默1996 阅读(0) 评论(0) 推荐(0)

机器学习算法

该文被密码保护。

posted @ 2019-02-15 20:28 缄默1996 阅读(5) 评论(0) 推荐(0)

数据挖掘主要解决的四类问题以及常用到的算法

摘要：1、分类问题：分类问题属于预测性问题，他和普通预测问题的区别在于预测的结果是类别而不是一个具体的数值。分类问题可以看成有二分类问题和多分类问题，解决二分类问题（0/1问题）时，遇到其中一类的概率不方便计算时，可以通过计算另一类问题的概率来推测第一类问题的概率。这里还要弄懂一个训练集和预测集的概阅读全文

posted @ 2019-02-13 14:06 缄默1996 阅读(1698) 评论(0) 推荐(0)

缄默1996

随笔分类 - 数据挖掘

公告