Data Mining Tutorial -- 简明译文Part 02

第二章　　Tasks

描述性功能

描述性函数处理数据库中数据的一般属性。以下是描述性功能列表：

类/概念表述
挖掘频繁模式
联合挖掘
相关挖掘
集群挖掘

》类/概念表述

类/概念是指与类或概念相关联的数据。例如，在公司中，销售项目的类别包括计算机和打印机，客户的概念包括大花钱和预算支出。类或概念的这种描述称为类/概念表述。这些描述可以通过以下两种方式得出：

数据表征 - 这是指对正在研究的课程数据进行总结。被研究的类称为目标类。

数据区分 - 它指的是具有某些预定义组或类的类的映射或分类。

》挖掘频繁模式

常见模式是数据交易中最频繁出现一种模式。以下列出类高频模式：

频繁项目集 - 它指的是经常出现在一起的一组项目，例如牛奶和面包。

频繁子序列 - 频繁出现的一系列模式（例如购买相机）之后是存储卡。

频繁子结构 - 子结构是指不同的结构形式，例如图形，树木或格子，它们可以与项目集或子序列组合。

》联合挖掘

零售业中使用联合性来辨识经常一起购买的行为模式。该过程指的是发现数据之间的关系并确定联合规则的过程。

例如，零售商得出了一个联合规则，该规则显示售卖次数中70％牛奶与面包一起出售，并且只有30％与面包一起出售饼干。

》相关挖掘

这是一种辅助的分析，用于揭示一对相关属性值或两个元素集之间的统计上的相关性，以分析它们是否对彼此具有正面，负面影响或无影响。

》集群挖掘

集群是指一组属性相近的物品。聚类分析是指形成集群，组类元素非常近似，不同组元素区别很大。

分类和预测

分类是找到一个描述数据分类或概念的模型的过程。目的是能够使用此模型来预测类标签未知的对象类。衍生而来的模型基于对训练数据集的分析。派生模型可以以下列形式呈现 -

分类（IF-THEN）规则
决策树
数学公式
神经网络

分类 - 它预测类标签未知的对象类。其目标是找到描述和区分数据类或概念的派生模型。派生模型基于训练数据的分析集，即其类标签众所周知的数据对象。

预测 - 用于预测缺失或不可用的数值数据值而不是类标签。回归分析通常用于预测。预测还可以用于基于可用数据识别分布趋势。

异常值分析 - 异常值可以定义为不符合可用数据的一般行为或模型的数据对象。

进化分析 - 进化分析是指行为随时间变化的对象的描述和模型规律或趋势。

数据挖掘任务原语

我们能够以数据挖掘查询的形式指定一个数据挖掘任务。

查询输入到系统。

数据挖掘查询是数据挖掘任务原语定义的。

注 - 这些原语允许我们以交互方式与数据挖掘系统进行通信。以下是数据挖掘任务原语列表：

任务相关的待挖掘的数据集合。
要挖掘的知识类别。
在发现过程中使用的背景知识。
用于模式评估的兴趣度量和阈值。
发掘的模式的可视化表示。

》要开采的任务相关数据集

这是用户感兴趣的数据库部分。这部分包括以下内容：

数据库属性
感兴趣的数据仓库维度

》要挖掘的知识类别

它指的是待执行的功能。这些功能是：

描述
区别
关联和相关分析
分类
预测
聚类
离群分析
进化分析

》背景知识

背景知识允许在多个抽象级别挖掘数据。例如，Concept层次结构是允许在多个抽象级别挖掘数据的背景知识之一。

》用于模式评估的兴趣度量和阈值

这用于评估于知识发现过程中发掘的模式。不同类型的知识有着不同有趣的衡量标准。

》发现的模式的可视化表示

这是指展示发掘的模式的形式。这些表示可能包括以下：
规则
表格
图表
图形
决策树
立方图

posted @ 2018-10-26 15:53 q4zs 阅读(184) 评论(0) 收藏举报

q4zs

Data Mining Tutorial -- 简明译文Part 02

第二章 Tasks

公告

第二章　　Tasks