挖掘频繁模式、关联和相关性:基本概念和方法
摘要:基本概念 频繁模式挖掘搜索给定数据及中国反复出现的联系。 购物篮分析:一个例子 频繁项集、闭项集和关联规则 规则的 支持度 和 置信度 是规则兴趣度的两种度量。 一个例子: 支持度 :支持度为2%,意味着分析的所有事务的2%显示计算机和杀毒软件被同时购买 置信度 :置信度60%,意味着购买计算机的顾
阅读全文
posted @
2018-11-09 16:15
一小白
阅读(843)
推荐(0)
数据预处理
摘要:数据预处理 为什么要进行数据预处理? 数据质量 数据质量包括准确性、完整性、一致性、时效性、可信性和可解释性 数据质量的三个要素:准确性、完整性、一致性。 不正确、不完整和不一致的数据是现实世界的大型数据库和数据仓库的共同特点 数据预处理的主要任务 数据清理 数据集成 数据规约 数据变换 数据清理
阅读全文
posted @
2018-11-07 15:26
一小白
阅读(3929)
推荐(0)
认识数据
摘要:数据对象与属性类型 数据集由数据对象组成,一个数据对象代表一个实体。 属性是一个数据字段,表示数据对象的一个特征 标称属性的值是一些符号或者事务的名称 二元属性是一种标称属性,只有两个类别或者状态:0或者1 序数属性可能的值之间具有有意义的序或者秩评定,但是相继值之间的差未知(如大中小) 数值属性
阅读全文
posted @
2018-11-06 23:02
一小白
阅读(468)
推荐(0)
数据挖掘引论
摘要:数据挖掘引论 为什么进行数据挖掘 简单的说就是信息化时代,数据量太大,仅仅靠人自己来发现信息中的可用信息代价太高,所以数据挖掘崛起。 随着数据挖掘崛起,出现了一个名词,数据仓库,它是一种多个异构数据源在但个站点以统一的模式组织的存储,数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。 下
阅读全文
posted @
2018-11-02 15:23
一小白
阅读(137)
推荐(0)
数据挖掘引论
摘要:数据挖掘引论为什么进行数据挖掘简单的说就是信息化时代,数据量太大,仅仅靠人自己来发现信息中的可用信息代价太高,所以数据挖掘崛起。随着数据挖掘崛起,出现了一个名词,数据仓库,它是一种多个异构数据源在但个站点以统一的模式组织的存储,数据仓库技术包括数据清理、数据...
阅读全文
posted @
2018-11-02 15:23
一小白
阅读(175)
推荐(0)