随笔分类 -  数据挖掘

摘要:我们是通过算法来找到数据之间的关联规则(两个物品之间可能存在很强的相关关系)和频繁项集(经常出现在一起的物品的集合)。 我们是通过支持度和置信度来定义关联规则和频繁项集的 一个项集支持度是指在所有数据集中出现这个项集的概率,项集可能只包含一个选项,也有可能是多个选项的组合。 置信度 针对于啤酒——> 阅读全文
posted @ 2019-02-23 23:49 缄默1996 阅读(3838) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2019-02-18 21:04 缄默1996 阅读(0) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2019-02-17 14:59 缄默1996 阅读(3) 评论(0) 推荐(0)
摘要:决策树是一种类似于流程图的树结构。有二元分支树和多分支树两种。内部节点表示在一个属性上的测试,分支是代表一个测试输出,树节点代表类和类分布。 决策树的生成:构建阶段是在开始时先把所有的训练样本放在根节点,然后通过选定的属性来划分样本(必须是离散值),树剪枝阶段是检测和去除训练数据中的噪声和孤立点。 阅读全文
posted @ 2019-02-16 14:29 缄默1996 阅读(861) 评论(0) 推荐(0)
摘要:三个方面来看数据探索:汇总统计、可视化和联机分析处理 1、汇总统计是用数概括数据的性质(位置度量、散布度量) 频率:一个属性值的频率是数据集里属性值发生次数的百分比 众数:一个属性的众数是具有最高频率的值 百分位数:对于连续的数据,考虑值集的百分位数更有意义 位置度量:均值和中位数 散布度量:极差和 阅读全文
posted @ 2019-02-16 12:09 缄默1996 阅读(190) 评论(0) 推荐(0)
摘要:属性的类型 1、标称:标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象。邮编、雇员ID、颜色、性别。 2、序数:序数属性的值提供足够的信息确定对象的序 。矿石硬度(好,较好,最好)、成绩、街道号码 3、区间:对于符号属性,值之间的差是有意义的,即存在测量单位。日历日期、摄氏温度华氏 阅读全文
posted @ 2019-02-15 22:44 缄默1996 阅读(594) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2019-02-15 20:56 缄默1996 阅读(1) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2019-02-15 20:33 缄默1996 阅读(0) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2019-02-15 20:28 缄默1996 阅读(5) 评论(0) 推荐(0)
摘要:1、分类问题: 分类问题属于预测性问题,他和普通预测问题的区别在于预测的结果是类别而不是一个具体的数值。 分类问题可以看成有二分类问题和多分类问题,解决二分类问题(0/1问题)时,遇到其中一类的概率不方便计算时,可以通过计算另一类问题的概率来推测第一类问题的概率。 这里还要弄懂一个训练集和预测集的概 阅读全文
posted @ 2019-02-13 14:06 缄默1996 阅读(1698) 评论(0) 推荐(0)