什么激发了数据挖掘,为什么它是重要的?

决策者缺乏从海量数据中提取有价值知识的工具,我们希望重要的决策是基于数据储存仓库中信息丰富的数据,而不是基于决策者的直觉。

数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。

什么是数据挖掘?

简单说,从大量数据中提取或“挖掘”知识。

数据挖掘作为知识发现过程的一个步骤。

                   数据库

     数据清理(消除噪声和不一致数据),数据集成(多种数据源可以组合在一起)

                                        数据仓库

          数据选择(从数据库中提取与分析任务相关的数据)

数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)

数据挖掘(基本步骤,使用智能方法提取数据模式)

模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式)

知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

典型的数据挖掘系统具有以下主要成分:

数据库、数据仓库、万维网或其他信息库;可以对其数据进行数据清理和集成

数据库或数据仓库服务器:负责提取相关数据

知识库:用于指导搜索或评估结果模式的兴趣度;

数据挖掘引擎:用于执行特征化、关联和相关分析、分类、预测、聚类分析、离群点分析和演变分析等任务。

模式评估模块:

用户界面;

对何种数据进行数据挖掘:

关系数据库,

数据仓库是一个从多个数据源收集的信息储存库,存放在一个一致的模式下,并且通常驻留在单个站点。其实际物理结构可以是关系数据存储或多维数据立方体。

事务数据库:由一个文件组成,其中每个记录代表一个事务;

高级数据和信息系统与高级应用:

                   对象-关系数据库:变量集,消息集和方法集;

                   时间数据库、序列数据库和时间序列数据库:

                   空间数据库和时间空间数据库

                   文本数据库和多媒体数据库;

                   异构数据库和遗产数据库;

                   数据流:海量甚至可能无限,动态变化,以固定的次序流进和流出,只允许一遍或少数几遍扫描,要求快速(常常是实时的)响应时间。

                   万维网;

数据挖掘功能----可以挖掘什么类型的模式

概念/类描述:特征化和区分。数据特征的输出可以用多种形式,包括饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。

挖掘频繁模式、关联和相关;

分类和预测:聚类分析;离群点分析;演变分析(描述行为随时间变化的对象的规律或趋势,并对其建模。)

说明数据挖掘任务的原语

任务相关数据:数据库或数据仓库名;数据库表或数据立方体;数据选择条件;相关属性或维;数据分组标准

挖掘的知识类型:特征化;区分;关联/相关;分类/预测;聚类

背景知识:概念分层;用户对数据联系的信念

模式相关度度量:简洁性;确定性(如置信度);实用性(如支持度);新颖性

发现模式的可视化:规则,表、报告、图表、图、决策树和立方体、下钻或上卷。

数据挖掘系统与数据库系统或数据仓库系统的集成

数据挖掘系统设计的一个关键问题是如何将DM系统与数据库系统和或数据仓库系统集成或耦合。

不耦合:DM系统不利用DBDW系统的任何功能。它可能由特定的数据源(如文件系统)提取数据,使用某些数据挖掘算法处理数据,然后再将挖掘结果存放到另一个文件中。

松散耦合:DM系统将使用DBDW系统的某些设施,从这些系统管理的数据库中提取数据,进行数据挖掘,然后将挖掘的结果存放到文件中,或者存放到数据库或数据仓库的指定位置。

半紧密耦合:排序、索引、聚集、直方图分析、多路连接和一些基本的统计度量的预计算。

紧密耦合:DM系统平滑地继承到DB/DW中。

 

posted on 2011-03-20 22:50  pandy  阅读(351)  评论(0编辑  收藏  举报