Data Mining Tutorial -- 简明译文Part 02
第二章 Tasks
描述性功能
描述性函数处理数据库中数据的一般属性。以下是描述性功能列表:
- 类/概念表述
- 挖掘频繁模式
- 联合挖掘
- 相关挖掘
- 集群挖掘
》类/概念表述
类/概念是指与类或概念相关联的数据。例如,在公司中,销售项目的类别包括计算机和打印机,客户的概念包括大花钱和预算支出。类或概念的这种描述称为类/概念表述。这些描述可以通过以下两种方式得出:
数据表征 - 这是指对正在研究的课程数据进行总结。被研究的类称为目标类。
数据区分 - 它指的是具有某些预定义组或类的类的映射或分类。
》挖掘频繁模式
常见模式是数据交易中最频繁出现一种模式。以下列出类高频模式:
频繁项目集 - 它指的是经常出现在一起的一组项目,例如牛奶和面包。
频繁子序列 - 频繁出现的一系列模式(例如购买相机)之后是存储卡。
频繁子结构 - 子结构是指不同的结构形式,例如图形,树木或格子,它们可以与项目集或子序列组合。
》联合挖掘
零售业中使用联合性来辨识经常一起购买的行为模式。该过程指的是发现数据之间的关系并确定联合规则的过程。
例如,零售商得出了一个联合规则,该规则显示售卖次数中70%牛奶与面包一起出售,并且只有30%与面包一起出售饼干。
》相关挖掘
这是一种辅助的分析,用于揭示一对相关属性值或两个元素集之间的统计上的相关性,以分析它们是否对彼此具有正面,负面影响或无影响。
》集群挖掘
集群是指一组属性相近的物品。聚类分析是指形成集群,组类元素非常近似,不同组元素区别很大。
分类和预测
分类是找到一个描述数据分类或概念的模型的过程。目的是能够使用此模型来预测类标签未知的对象类。衍生而来的模型基于对训练数据集的分析。派生模型可以以下列形式呈现 -
分类(IF-THEN)规则
决策树
数学公式
神经网络
分类 - 它预测类标签未知的对象类。其目标是找到描述和区分数据类或概念的派生模型。派生模型基于训练数据的分析集,即其类标签众所周知的数据对象。
预测 - 用于预测缺失或不可用的数值数据值而不是类标签。回归分析通常用于预测。预测还可以用于基于可用数据识别分布趋势。
异常值分析 - 异常值可以定义为不符合可用数据的一般行为或模型的数据对象。
进化分析 - 进化分析是指行为随时间变化的对象的描述和模型规律或趋势。
数据挖掘任务原语
我们能够以数据挖掘查询的形式指定一个数据挖掘任务。
查询输入到系统。
数据挖掘查询是数据挖掘任务原语定义的。
注 - 这些原语允许我们以交互方式与数据挖掘系统进行通信。以下是数据挖掘任务原语列表:
- 任务相关的待挖掘的数据集合。
- 要挖掘的知识类别。
- 在发现过程中使用的背景知识。
- 用于模式评估的兴趣度量和阈值。
- 发掘的模式的可视化表示。
》要开采的任务相关数据集
这是用户感兴趣的数据库部分。这部分包括以下内容:
数据库属性
感兴趣的数据仓库维度
》要挖掘的知识类别
它指的是待执行的功能。这些功能是:
描述
区别
关联和相关分析
分类
预测
聚类
离群分析
进化分析
》背景知识
背景知识允许在多个抽象级别挖掘数据。例如,Concept层次结构是允许在多个抽象级别挖掘数据的背景知识之一。
》用于模式评估的兴趣度量和阈值
这用于评估于知识发现过程中发掘的模式。不同类型的知识有着不同有趣的衡量标准。
》发现的模式的可视化表示
这是指展示发掘的模式的形式。这些表示可能包括以下:
规则
表格
图表
图形
决策树
立方图

浙公网安备 33010602011771号