数据挖掘导论--第1章绪论
数据挖掘导论-第一章-绪论
为什么会出现数据挖掘?
1. 因为随着社会不断快速发展,信息量在不断增加,由于**信息量太大** ,而无法使用传统的数据分析工具和技术处理它们; 2. 即使数据集相对较小,但由于数据本身有一些**非传统特点**,也不能使用传统的方法进行处理。
什么是数据挖掘?
- 数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合。
- 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。
- 数据挖掘是数据库中知识发现(knowledge discovery in database,KDD)不可缺少的一部分。

数据挖掘要解决的问题
- 可伸缩
- 高维性
- 异种数据和复杂数据
- 数据的所有权与分布
- 非传统的分析
数据挖掘任务
通常,数据挖掘任务分为下面两大类
- 预测任务:这些任务的目标是根据其他属性的值,预测特定属性的值。
- 被预测的属性一般称为目标变量或因变量
- 用来做预测的属性称说明变量或自变量
- 描述任务:其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。
- 本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果
下图展示了其余部分讲述的四种主要数据挖掘任务

- 本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果
- 预测建模:以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:
- 分类(classification):用于预测离散的目标变量
- 回归(regression):用于预测连续的目标变量
- 关联分析:用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示
- 聚类分析:旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似
- 异常检测:任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点
## 参考文献: 1. 数据挖掘导论(完整版)


浙公网安备 33010602011771号