Data Mining Tutorial -- 简明译文Part 02

第二章  Tasks

 

描述性功能

描述性函数处理数据库中数据的一般属性。以下是描述性功能列表:

  • 类/概念表述
  • 挖掘频繁模式
  • 联合挖掘
  • 相关挖掘
  • 集群挖掘

》类/概念表述


类/概念是指与类或概念相关联的数据。例如,在公司中,销售项目的类别包括计算机和打印机,客户的概念包括大花钱和预算支出。类或概念的这种描述称为类/概念表述。这些描述可以通过以下两种方式得出:

数据表征 - 这是指对正在研究的课程数据进行总结。被研究的类称为目标类。

数据区分 - 它指的是具有某些预定义组或类的类的映射或分类。

 

》挖掘频繁模式


常见模式是数据交易中最频繁出现一种模式。以下列出类高频模式:

频繁项目集 - 它指的是经常出现在一起的一组项目,例如牛奶和面包。

频繁子序列 - 频繁出现的一系列模式(例如购买相机)之后是存储卡。

频繁子结构 - 子结构是指不同的结构形式,例如图形,树木或格子,它们可以与项目集或子序列组合。

 

》联合挖掘

 

零售业中使用联合性来辨识经常一起购买的行为模式。该过程指的是发现数据之间的关系并确定联合规则的过程。

例如,零售商得出了一个联合规则,该规则显示售卖次数中70%牛奶与面包一起出售,并且只有30%与面包一起出售饼干。

 

》相关挖掘

这是一种辅助的分析,用于揭示一对相关属性值或两个元素集之间的统计上的相关性,以分析它们是否对彼此具有正面,负面影响或无影响。

 

》集群挖掘

 

集群是指一组属性相近的物品。聚类分析是指形成集群,组类元素非常近似,不同组元素区别很大。

 

分类和预测

 

分类是找到一个描述数据分类或概念的模型的过程。目的是能够使用此模型来预测类标签未知的对象类。衍生而来的模型基于对训练数据集的分析。派生模型可以以下列形式呈现 - 

分类(IF-THEN)规则
决策树
数学公式
神经网络

分类 - 它预测类标签未知的对象类。其目标是找到描述和区分数据类或概念的派生模型。派生模型基于训练数据的分析集,即其类标签众所周知的数据对象。

预测 - 用于预测缺失或不可用的数值数据值而不是类标签。回归分析通常用于预测。预测还可以用于基于可用数据识别分布趋势。

异常值分析 - 异常值可以定义为不符合可用数据的一般行为或模型的数据对象。

进化分析 - 进化分析是指行为随时间变化的对象的描述和模型规律或趋势。

 

数据挖掘任务原语

 

我们能够以数据挖掘查询的形式指定一个数据挖掘任务。

查询输入到系统。

数据挖掘查询是数据挖掘任务原语定义的。

 

注 - 这些原语允许我们以交互方式与数据挖掘系统进行通信。以下是数据挖掘任务原语列表:

  • 任务相关的待挖掘的数据集合。
  • 要挖掘的知识类别。
  • 在发现过程中使用的背景知识。
  • 用于模式评估的兴趣度量和阈值。
  • 发掘的模式的可视化表示。

 

》要开采的任务相关数据集

这是用户感兴趣的数据库部分。这部分包括以下内容:

数据库属性
感兴趣的数据仓库维度

 

》要挖掘的知识类别

它指的是待执行的功能。这些功能是:

描述
区别
关联和相关分析
分类
预测
聚类
离群分析
进化分析

 

》背景知识


背景知识允许在多个抽象级别挖掘数据。例如,Concept层次结构是允许在多个抽象级别挖掘数据的背景知识之一。

 

》用于模式评估的兴趣度量和阈值


这用于评估于知识发现过程中发掘的模式。不同类型的知识有着不同有趣的衡量标准。

 

》发现的模式的可视化表示


这是指展示发掘的模式的形式。这些表示可能包括以下:
规则
表格
图表
图形
决策树
立方图

posted @ 2018-10-26 15:53  q4zs  阅读(184)  评论(0)    收藏  举报