随笔分类 - note-数据挖掘 概念与技术
数据挖掘 概念与技术 读书的笔记与思考
摘要:分类是一种重要的数据分析形式,提取刻画重要数据类的模型。 分类器:用预测类标号 数据分类:学习阶段(构建分类模型)与分类阶段(使用模型预测给定数据的类标号) 训练集:由数据库元组和与它们相关联的类标号组成。元组X用n维属性向量X=(x1,x2,...,xn)表示。分别描述元组在n个数据库属性A1,A
阅读全文
摘要:***关联推荐! 频繁模式:频繁地出现在数据集中的模式,给出数据集中反复出现的联系。 频繁序列模式:如 有序购买一系列产品 频繁结构模式:如 组合购买产品 sample 购物篮分析:通过发现顾客放入他们购物篮中的商品之间的关联,分析顾客的购物习惯,这种关联度发现可以帮助零售商在哪些商品频繁被顾客同时
阅读全文
摘要:今世界数据库容易受到噪声、缺失值、不一致数据困扰,低质量数据会导致低质量的挖掘结果。 数据集成 将数据由多个数据源合并成一个一致的数据存储 数据规约可以通过将聚集删除荣誉特征或者聚类来降低数据大规模。 数据质量:数据的准确性、完整性、一致性、时效性、可信性、可解释性 不完整的:缺少属性值或者某些感兴
阅读全文
摘要:数据特性: 均值 中位数 众数 中心趋势度量 这些基本统计量有助于 数据预处理时 填补空缺值、光滑噪声、识别离群点。 考察数据对象的"相似性/相异性" 可以用于检测最近邻分类 数据对象:一个实体(样本 实例 数据点) 属性:一个数据字段 特征 变量 维度 单变量 双变量 标称属性:与名称相关,是一些
阅读全文
摘要:数据挖掘:把大型的数据集转换成知识。 流感趋势:搜索项作为流感活动的指示器。(如Google) 数据挖掘与知识发现:分类、聚类、离群点分析、关联与相关性、比较汇总、判别分析、模式发现、趋势与偏差分析等。 数据挖掘顺序: (1)数据清理 消除噪声、删除不一致的数据 (2)数据集成 多种数据源可以组合在
阅读全文

浙公网安备 33010602011771号