读书笔记《数据挖掘概念与技术》第1章引言

书籍信息

【书名】数据挖掘：概念与技术（原书第2版）

【原书名】 Data Mining: Concepts and Techniques, Second Edition

【作者】 (加)Jiawei Han; Micheline Kamber

【译者】范明；孟小峰

【出版社】机械工业出版社

【书号】 9787111205388

【出版日期】2007 年3月

第1章引言

1.1 什么激发了数据挖掘，为什么它是重要的

Ø 需要是发明之母。——柏拉图

Ø 联机事务处理（OLTP）

Ø 数据库系统技术的演变（图1-1）

Ø 数据仓库，数据仓库技术包括数据清理、数据集成、联机分析处理（OLAP）

Ø 数据丰富加上对强有力的数据分析工具的需求可描述为数据丰富，但信息贫乏。快速增长的海量数据收集、存放在大型和大量数据存储库中，没有强有力的工具，理解它们已经远远超出了人的能力。结果，收集在大型数据存储库中的数据变成了 “数据坟墓”——难得再访问的数据档案。这样，重要的决策常常不是基于数据存储库中信息丰富的数据，而是基于决策者的直觉，因为决策者缺乏从海量数据中提取有价值知识的工具。此外，当前的专家系统技术通常以来用户火领域专家人工地将知识输入知识库。遗憾的是，这一过程常常有偏差和错误，并且耗时和费用高。数据挖掘工具进行数据分析，可以发现重要的数据模式，对商务策略、知识库、科学和医学研究做出巨大贡献。正在扩大的数据和信息之间的裂口呼唤系统地开发数据挖掘工具，将数据坟墓转换成知识“金块”。

1.2 什么是数据挖掘

Ø 简单地说，数据挖掘是指从大量数据中提取或“挖掘”知识。

Ø 有一些术语具有和数据挖掘类似但稍微不同的含义，如从数据中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。

Ø 知识发现过程（图1-4）

1. 数据清理（消除噪声和不一致数据）

2. 数据集成（多种数据源可以组合在一起）

3. 数据选择（从数据库中提取与分析任务相关的数据）

4. 数据变换（数据变换或统一成适合挖掘的形式，如通过汇总或聚集操作）

5. 数据挖掘（基本步骤，使用智能方法提取数据模式）

6. 模式评估（根据某种兴趣度度量，识别表示知识的真正有趣的模式）

7. 知识表示（使用可视化和知识表示技术，向用户提供挖掘的知识）

步骤1-4是数据预处理的不同形式，为挖掘准备数据。

Ø 本书中，采用数据挖掘功能的广义观点：数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中发现有趣知识的过程。

Ø 典型数据挖掘系统的结构（图1-5）

Ø 通过数据挖掘，可以从数据库中提取有趣的知识、规律或高层信息，并可以从不同的角度观察或浏览它们。发现的知识可以用于做决策、过程控制、信息管理和查询处理。因此，数据挖掘在信息和数据库系统方面是最重要的前沿之一，是信息技术最有发展前途的交叉学科之一。

1.3 对何种数据进行数据挖掘

1.3.1 关系数据库

关系数据库是数据挖掘最常见、最丰富的数据源，因此，它是我们数据挖掘研究的一种主要数据形式。

1.3.2 数据仓库

Ø 数据仓库是一个从多个数据源手机的信息存储库，存放在一个一致的模式下，并且通常驻留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新过程来构造。图1-7

Ø 数据仓库的实际物理结构可以是关系数据存储或多维数据立方体（multidimensional data cube）。

Ø 数据仓库与数据集市的区别：数据仓库手机了跨部门的整个组织的主题信息，因此它是企业范围的。另一方面，数据集市（data mart）是数据仓库的一个部门子集。它的焦点在选定的主题上，是部门范围的。

1.3.3 事务数据库

Ø 一般，事务数据库由一个文件组成，其中每个记录代表一个事务。

1.3.4 高级数据和信息系统与高级应用

1. 对象——关系数据库

2. 时间数据库、序列数据库和时间序列数据库

a) 时间数据库（temporal database）通常存放包含时间相关属性的关系数据。这些属性可能设计若干时间标签，每个都具有不同的语义。

b) 序列数据库（sequence database）存放具有或不具有具体时间概念的有序事件的序列。例子包括顾客购物序列、web点击流和生物学序列。

c) 时间序列数据库（time-series database）存放定时（如每小时、每天、每周）重复测量得到的值或事件的序列。例子包括股票交易、库存控制和自然现象（如气温和风力）观测收集的数据。

可以使用数据挖掘技术发现数据库中对象演变特征或对象变化趋势。这些信息对于决策和规划是有用的。

3. 空间数据库和时间空间数据库

a) 空间数据库（spatial database）包含设计空间的信息。例子包括地理（地图）数据库、超大规模集成电路（VLSI）或计算机辅助设计数据库以及医疗和卫星图像数据库。空间数据可能用光栅格式（raster format）标识，由n维位图或像素图构成。地图也可以用向量格式表示。

b) 你可能会问：“对于空间数据库可以进行何种数据挖掘？” 数据挖掘可以发现描述坐落在特定类型地点（如公园）附近的房屋特征。其他模式可能描述不同海拔高度的山区气候，或根据城市离主要高速公路的距离描述大城市贫困率的变化趋势。可以考察空间对象集之间的联系，发现空间自相关或关联的对象子集。通过空间聚类分析可以发现簇和离群点。此外，还可以进行空间分类，根据空间对象的相关特征集构造预测模型。进一步，可以构造“空间数据立方体”，将数据组织到多维结构和层次结构中，可以对其进行OLAP操作（如下钻和上卷）。

c) 存放随时间变化的空间对象的空间数据库称作时间空间数据库（spatiotemporal database），从这种数据库可以挖掘有趣的信息。例如，我们可以将移动对象的趋势分组，识别移动怪异的车辆，或者根据疾病随时间的地理分布，区别生物恐怖攻击与正常的流感爆发。

4. 文本数据库和多媒体数据库

a) 文本数据库是包含对象的词描述的数据库。

b) “对文本数据库的数据挖掘可以发现什么？” 通过挖掘文本数据可以发现文本文档的简明概括的描述、关键词或内容关联，以及文本对象的聚类行为。为做到这一点，需要将标准的数据挖掘技术与信息检索技术和文本数据特有的层次构造（如字典和辞典），以及面向学科的（如生物化学、医学、法律或经济）术语分类系统集成在一起。

c) 多媒体数据库存放图像、音频和视频数据。

d) 对于多媒体数据挖掘，需要将存储和搜索技术与标准的数据挖掘方法集成在一起。有前途的方法包括构造多媒体数据立方体、多媒体数据的多特征提取和基于相似性的模式匹配。

5. 异构数据库和遗产数据库

a) 异构数据库（heterogeneous database）由一组互联的、自治的成员数据库组成。这些成员相互通信，以便交换信息和回答查询。

b) 遗产数据库（legacy database）是一组异构数据库，将不同类型的数据系统组合在一起。

6. 数据流

a) 数据流具有的特性：海量甚至可能无限，动态变化，以固定的次序流进和流出，只语序一遍或少数几遍扫描，要求快速（常常是实时的）响应时间。

b) 由于数据流通常不存放在任何数据存储库中，数据流的有效管理和分析对研究者提出了巨大挑战。

c) 挖掘数据流设计数据中的一般模式和动态变化的有效发现。例如，我们可能希望根据消息流中的异常检测计算机网络入侵，这可以通过数据流聚类、流动型动态构造或将当前的频繁模式与前一次的频繁模式进行比较来发现。大部分流数据存在于相当低的抽象层，而分析者常常对较高抽象层或多抽象层更感兴趣。因此，还应当对流数据进行多层、多维联机分析和挖掘。

7. 万维网

a) 尽管web页面好看并且信息丰富，但是它们可能是高度非结构化的，并且缺乏预定义的模式、类型或格式。这样，对于系统地进行信息检索和数据挖掘，计算机很难理解各种web页面的语义并把它们以有组织的形式结构化。

b) 基于web页面之间链接的权威web页面分析（authoritative web page analysis）可以根据web页面的重要性、影响和主题，帮助对web页面定制。

c) 自动web页面聚类和分类有助于基于页面的内容，以多维的方式对went页面分组和安排。

d) Web社区分析（web community analysis）有助于识别隐藏的web社会网络和社团，并观察它们的演变。

e) Web挖掘旨在开发可伸缩的、有效的web数据分析和挖掘方法。这可能帮助我们一般的了解web上信息的分布、描述web页面的特征并对web页面进行分类，发现不同的web页面、用户、社团和基于web的活动之间的web动态特性、关联和其他联系。

1.4 数据挖掘功能——可以挖掘什么类型的模式

Ø 一般而言，数据挖掘任务可以分为两类：描述和预测。描述性挖掘任我描述数据库中数据的一般性质。预测性挖掘任务对当前数据进行推断，以做出预测。

Ø 在某些情况下，用户不知道他们的数据中什么类型的模式是有趣的，因此可能想并行地搜索多种不同的模式。这样，重要的是数据挖掘系统要能挖掘多种类型的模式，以满足不同的用户需求或不同的应用。此外，数据挖掘系统应当能够在各种粒度（即不同的抽象层）发现模式。数据挖掘系统还应当允许用户给出提示，指导或聚焦有趣模式的搜索。由于有些模式并非对数据库中的所有数据都成立，通常每个被发现的模式都附上一个确定性或“可信性”度量。

1.4.1 概念/类描述：特征化和区分

Ø 数据可以与类或概念相关联。用汇总的、简洁的和精确的方式描述各个类和概念可能是有用的。这种类或概念的描述称为类/概念描述（lass/concept description）。这种描述可以通过下述方法得到：（1）数据特征化，一般地汇总所研究类（通常称为目标类（target class））的数据；（2）数据区分，将目标类与一个或多个可比较类（通常称为对比类（contrasting class））进行比较；（3）数据特征化和比较。

Ø 数据特征的输出可以用多种形式，包括饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述也可以用广义关系（generalized relation）或规则形式（称作特征规则）提供。

Ø 例1-4 数据特征化。数据挖掘系统应当能够产生一年之内杂字AllElectronics花费1000美元以上的顾客特征的汇总描述。结果可能是顾客的一般轮廓，如年龄在40~50岁、有工作和有很好的信誉等级。系统应当语序用户任意维下钻，一边根据他们的职业类型来观察这些顾客。

Ø 例1-5 数据区分。数据挖掘系统应当能够比较AllElectronics的两组顾客，如定期（每月多于2词）购买计算机产品的顾客和偶尔（如每年少于3次）购买这种产品的顾客。结果描述提供顾客比较的一般轮廓，频繁购买计算机产品的顾客80%在20~40岁之间，受过大学教育；二不经常购买这种产品的顾客60%或者年龄太多或者太年轻，没有大学学位。沿一个维下钻，如沿occupation下钻，或添加新的维，如income_level，可以帮助发现两类之间的更多区分特性。

1.4.2 挖掘频繁模式、关联和相关

Ø 频繁模式（frequent pattern）是在数据中频繁出现的模式。

Ø 例1-6 关联分析。加上做完AllElectronics的市场部经理，想确定在相同的事务中，哪些商品经常被一块购买。

Ø 包含单个谓词的关联规则称作单维关联规则（single-dimensional association rule）。

1.4.3 分类和预测

Ø 分类（classification）是这样的过程，它找出描述和区分数据类或概念的模型（或函数），以便能够使用模型预测类标号未知的对象类。导出模型是基于对训练数据集（即类标号已知的数据对象）的分析。

Ø “如何提供导出的模型？”导出的模型可以用多种形式表示，如分类（IF-THEN）规则、决策树、数学公式或神经网络（图 1-10）。决策树是一种类似于流程图的树结构，期中每个节点代表在一个属性值上的测试，每个分支代表测试的一个输出，二树叶代表类或类分布。决策树容易转换成分类规则。当用于分类时，神经网络是一组类似于神经元的处理单元，单元之间加权连接。还有构造分类模型的其他方法，如朴素贝叶斯分类、支持向量机和 k最邻近分类。

Ø 分类预测分类的（离散的、无序的）标号，预测（prediction）建立连续值函数模型。也就是说，它用来预测空缺的或不知道的数值数据值，而不是类标号。尽管术语预测可以指数值预测和类标号预测，在本书，预测主要是指数值预测。尽管还存在其他方法，但是回归分析（regression analysis）是一种最常使用的数值预测的统计学方法。预测也包含基于可用数据的分布趋势识别。

Ø 相关分析（relevance analysis）可能需要在分类和预测之前进行，它视图识别对于分类或预测过程无用的属性。这些属性应当排除。

Ø 例1-7 分类和预测。

1.4.4 聚类分析

Ø 聚类（clustering）分析数据对象不考虑已知的类标号。一般情况下，训练数据中不提供类标号，因为开始并不知道类标号。可以使用聚类产生这种标号。对象根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类或分组。也就是说，对象的簇这样形成，使得相比之下在一个簇中的对象具有很高的相似性，而与其他簇中的对象很不相似。所形成的每个簇可以看做一个对象类，由它可以导出规则。聚类也便于分类法组织形式（taxonomy formation），将观测组织成类分层结构，把类似的事件组织在一起。

Ø 例1-8 聚类分析。可以对AllElectronics的顾客数据进行聚类分析，识别顾客的同类子族。这些簇可以表示每个购物目标群。图1-11显示一个城市内顾客位置的二维图。数据点的三个簇是显而易见的。

1.4.5 离群点分析

Ø 数据库中可能包含一些数据对象，它们与数据的一般行为或模型不一致。这些数据对象是离群点（outlier）。大部分数据挖掘方法将离群点视为噪声或异常而丢弃。然而，在一些应用中（如欺骗检测），罕见的事件可能比正常出现的事件更令人感兴趣。离群点数据分析称作离群点挖掘（outlier mining）。

Ø 例1-9 离群点分析。离群点分析可以通过检测一个给定的账号与正常的付费相比，购买数额特别大来发现信用卡欺骗性的使用。离群点值还可以通过购物地点和类型或购物频率来检测。

1.4.6 演变分析

Ø 数据演变分析（evolution analysis）描述行为随时间变化的对象的规律或趋势，并对其建模。

Ø 例1-10 演变分析。假设你又纽约股票交易所过去几年的主要股票市场（时间序列）数据，并希望投资高科技产业公司的股票。股票交易数据挖掘研究可以识别整个股票市场和特定的公司的股票演变规律。这种规律可以帮助预测股票市场价格的未来走向，帮助你对股票投资做出决策。

1.5 所有模式都是有趣的吗

Ø 不是

Ø 存在一些模式兴趣度的客观度量。这些度量基于所发现模式的结构和关于它们的统计。对象形如的关联规则，一种客观度量是规则的支持度（support）。规则的支持度表示满足规则的事务数据库的事务所占的百分比。关联规则的另一种客观度量是置信度（confidence），它评估发现的规则的确定性程度。

Ø 一般，每个兴趣度量与一个阈值相关联，该阈值可以由用户控制。例如，不满足置信度阈值50%的规则可以认为是无趣的。低于阈值的规则可能反映噪声、异常或少数情况，可能不太有价值。

1.6 数据挖掘系统的分类

Ø 数据挖掘是一个交叉学科领域，受多个学科影响，包括数据库系统、统计学、机器学习、可视化和信息科学。此外，依赖于所用的数据挖掘方法，可以使用其他学科的技术，如神经网络、模糊和/或粗糙集合论、知识表示、归纳逻辑程序设计或高性能计算。依赖于所挖掘的数据类型或给定的数据挖掘应用，数据挖掘系统也可能集成空间数据分析、信息检索、模式识别、图像分析、信号处理、计算机图形学、Web技术、经济学、商业、生物信息学或心理学领域的技术。（图1-12）

Ø 根据挖掘的数据库类型分类：数据挖掘系统可以根据挖掘的数据库类型分类。数据库系统本身可以根据不同的标准（如数据模型、数据类型或所涉及的应用）分类，每一类可能需要自己的数据挖掘技术。这样数据挖掘系统就可以相应分类。例如，根据数据模型分类，可以有关系的、事务的、对象-关系的或数据仓库的挖掘系统。如果根据所处理数据的特定类型分类，可以有空间的、时间序列的、文本的、流数据的、多媒体的数据挖掘系统，或万维网挖掘系统。

Ø 根据挖掘的知识类型分类：数据挖掘系统可以根据所挖掘的知识类型分类，即根据数据挖掘的功能分类，如特征化、区分、关联和相关分析、分类、预测、聚类、离去点分析和演变分析。一个综合的数据挖掘系统通常提供多种和/或集成的数据挖掘功能。此外，数据挖掘系统还可以根据所挖掘的只是的粒度或抽象层进行区分，包括广义知识（高抽象层）、原始层知识（原始数据层）或多层知识（考虑若干抽象层）。一个高级数据挖掘系统应当支持多抽象层的知识发现。数据挖掘系统还可以分类为挖掘数据的规则性（通常出现的模式）与挖掘数据的奇异性（如异常或离群点）。一般地，概念描述、关联和相关分析、分类、预测和聚类挖掘数据的规则性，将离群点作为噪声排除。这些方法也能帮助检测离群点。

Ø 根据所用的技术类型分类：数据挖掘系统也可以根据所用的数据挖掘技术分类。这些技术可以根据用户交互程度（例如自动系统。交互探查系统、查询驱动系统），或搜用的数据分析方法（例如面向数据库或面向数据仓库的技术、机器学习、统计学、可视化、模式识别、神经网络等）描述。复杂的数据挖掘系统通常采用多种数据挖掘技术，或采用有效的、集成的技术，结合一些方法的优点。

Ø 根据应用分类：数据挖掘系统也可以根据其应用分类。例如，可能有些数据挖掘系统特别适合金融、典型、DNA、股票市场、Email等。不同的应用通常需要集成对于该应用特别有效的方法。因此，泛化的全能的数据挖掘系统可能并不适合特定领域的挖掘任务。

1.7 数据挖掘任务原语

Ø 每个用户头脑中都有一个数据挖掘任务，即想进行的数据分析形式。数据挖掘任务可以用指定的数据挖掘查询的形式说明数据挖掘系统的输入。数据挖掘查询用数据挖掘任务原语定义。这些原语允许用户在知识发现过程中交互的与数据挖掘系统进行同学，指导挖掘过程，或从不同的角度或深度考察所发现的结果。数据挖掘原语说明定义如下，如图1-13所示的下述挖掘意图：

n 欲挖掘的任务相关数据集：指明数据库或数据集中用户感兴趣的部分。这包括感兴趣的数据库属性或数据仓库的维（称作相关属性或维）。

n 欲挖掘的知识类型：说明要执行的数据挖掘功能，如特征化、区分、关联或相关分析、分类、预测、聚类、离群点分析或演变分析。

n 用于发现过程的背景知识：这种关于挖掘领域的知识对于指导知识发现过程和评估发现的模式是非常有用的。概念分层是背景知识的一种流行形式，它允许在多个抽象层挖掘数据。概念分层的一个例子是age属性（或维）的概念分层，如图1-14所示。用户对数据中联系的信赖是另一种形式的背景知识。

n 模式评估的兴趣度度量和阈值：可以用于指导挖掘过程，或在发现模式之后，评估所发现的模式。不同类型的知识可能有不同的兴趣度度量。例如，对于关联规则，兴趣度度量包括支持度和置信度。其支持度和置信度的值小于用户指定的阈值的规则认为是不感兴趣的。

n 发现模式的期望的可视化表示：涉及发现模式的显示形式，可能包括规则、表、图表、图、决策树和立方体。

Ø 可以设计数据挖掘查询语言集成这些原语，允许用户灵活的与数据挖掘系统交互。数据挖掘查询语言也为建立友好的图形用户界面提供了基础。这将有助于数据挖掘系统与其他信息系统通信，有利于整个信息处理环境的集成。

Ø 设计一种综合的数据挖掘语言是一个挑战，因为数据挖掘任务涉及面宽，涵盖数据特征化到演变分析。每种任务都有不同的需求。有效的数据挖掘查询语言的设计需要深入理解各种数据挖掘任务的能力、局限性和基本机制。

Ø 例1-11 挖掘分类规则。

1.8 数据挖掘系统与数据库系统或数据仓库系统的集成

Ø 数据挖掘（DM）系统设计的一个关键问题是如何将DM系统与数据库（DB）系统和/或数据仓库（DW）系统集成或耦合。如果DM系统作为一个孤立的系统或嵌入应用程序中，则不存在DB或DW系统与它通信。这种简单的方案称为不耦合，期中DM设计所关注的主要问题停留在开发挖掘可用数据集的有效算法。然而，当DM系统工作在一个需要与其他信息系统成分（如DB和DW系统）通信的环境下，可能的方案包括不耦合、松散耦合、半紧密耦合和紧密耦合。

Ø 不耦合（no coupling）：不耦合意味着DM系统不利用DB或DW系统的任何功能。它可能由特定的数据源（如文件系统）提取数据，使用某些数据挖掘算法处理数据，然后再将挖掘结果存放到另一个文件中。

n 尽管这种系统简单，但有不少缺点。首先，DB系统在存储、组织、访问和处理数据方面提供了很大的灵活性和有效性。不使用DB/DW系统，DM系统可能要花大量的时间查找、手机、清理和变换数据。在DB和/或DW系统中，数据多半被很好的组织、索引、清理、集成或统一，使得找出任务相关的、高质量的数据成为一项容易的任务。其次，有许多经过测试的、可伸缩的算法和数据结构在DB或DW系统中得到实现。使用这种系统开发有效的、可伸缩的实现是可行的。此外，大部分数据已经或将要存放在DB/DW 系统中。要是没有任何这样的系统耦合，DM系统就需要使用其他工具提取数据，使得很难将这种系统集成到信息处理环境中。因此，不耦合是一种很糟糕的设计。

Ø 松散耦合（loose coupling）：松散耦合意味着DM系统将使用DB或DW系统的某些设施，从这些系统管理的数据库中提取数据，进行数据挖掘，然后将挖掘结果存放到文件中，或者存放到数据库或数据仓库的指定位置。

n 松散耦合比不耦合好，因为它可是使用查询处理、索引和其他系统设施提取存放在数据库或数据仓库中数据的任意部分。这带来了这些系统提供的灵活性、有效性等优点。然而，许多松散耦合的挖掘系统是基于内存的。由于挖掘本身不利用DB或DW提供的数据结构和查询优化方法，因此，对于大学数据集，松散耦合系统很难获得高度可伸缩性和良好的性能。

Ø 半紧密耦合（semitight coupling）：半紧密耦合意味着除了将DM系统连接到一个DB/DW系统之外，一些基本数据挖掘原语（通过分析频繁遇到的数据挖掘功能确定）的有效实现可以在DB/DW 系统中提供。这些原语可能包括排序、索引、聚集、直方图分析、多路连接和一些基本的统计度量（如求和、计数、最大值、最小值、标准差等）的预计算。此外，一些频繁使用的中间挖掘结果也可以预计算，并存放在DB/DW系统中。由于这些中间挖掘结果或者是预计算，或者可以有效地计算，这种设计将提高DM系统的性能。

Ø 紧密耦合（tight coupling）：紧密耦合意味着DM系统平滑的集成到DB/DW系统中。数据挖掘子系统视为信息系统的一个功能组件。数据挖掘查询和功能根据DB或DW系统的挖掘查询温馨、数据结构、索引模式和查询处理方法优化。随着技术进步，DM、DB和DW系统将进化和集成在一起，成为一个具有多种功能的信息系统。这将提供一个一致的信息处理环境。

Ø 有了这些分析，可以看出数据挖掘系统应当与一个DB/DW系统耦合。松散耦合尽管不太有效，也比不耦合好，因为它可以使用DB/DW的数据和系统设施。紧密耦合是高度期望的，但其实现并非易事，在此领域还需要更多的研究。半紧密耦合是松散和紧密耦合之间的折衷。重要的是识别常用的数据挖掘原语，提供这些原语在DB/DW系统中的有效实现。

1.9 数据挖掘的主要问题

Ø 本书强调数据挖掘的主要问题，考虑挖掘技术、用户界面、性能和各种数据类型。这些问题介绍如下：

Ø 数据挖掘技术和用户界面问题：这反映所挖掘的知识类型、在多粒度上挖掘知识的能力、领域知识的使用、临场即席挖掘和知识可视化。

n 挖掘数据库中不同类型的知识

n 多个抽象层的交互知识挖掘

n 结合背景知识

n 数据挖掘查询语言和特定的数据挖掘

n 数据挖掘结果的表示和可视化

n 处理噪声和不完全数据

n 模式评估即兴趣度问题

Ø 性能问题：这包括数据挖掘算法的有效性、可伸缩性和并行处理。

Ø 关于数据库类型的多样性问题：

n 关系的和复杂的数据类型的处理

n 从异构数据库和全球信息系统挖掘信息

1.10 小结

Ø 数据库技术已经从原始的数据处理，发展到开发具有查询和事务处理能力的数据库管理系统。进一步的发展导致越来越需要有效的数据分析和数据理解工具。这种需求是各种应用收集的数据爆炸性增长的必然结果；这些应用包括商务和管理、行政管理、科学和工程、环境控制。

Ø 数据挖掘是从大量数据中发现有趣模式，这些数据可以存放在数据库、数据仓库或其它信息存储中。这是一个年青的跨学科领域，源于诸如数据库系统、数据仓库、统计学、机器学习、数据可视化、信息检索和高性能计算。其它有贡献的领域包括神经网络、模式识别、空间数据分析、图像数据库、信号处理和许多应用领域，如商务、经济学和生物信息学。

Ø 知识发现过程包括数据清理、数据集成、数据变换、数据挖掘、模式评估和知识表示。

Ø 典型的数据挖掘系统结构包括数据库和/或数据仓库及相应的服务器，数据挖掘引擎和模式评估模块（二者与知识库交互），以及图形用户界面。作为一个整体，数据挖掘组件与数据库或数据仓库系统集成可能是不耦合、松散耦合、半紧密耦合或紧密耦合。一个设计良好的数据挖掘系统应当提供与数据库和/或数据仓库系统的紧密耦合或半紧密耦合。

Ø 数据模式可以从不同类型的数据库挖掘，如关系数据库、数据仓库、事务数据库和、对象-关系数据库。有趣的数据模式也可以从其它类型的信息库中提取，包括空间的、时间序列的、序列的、文本的、多媒体的数据库和遗产数据库、数据流和万维网。

Ø 数据仓库是一种数据的长期存储，这些数据来自多个数据源，经过组织数据仓库以有利于管理决策的方式组织。这些数据在一种一致的模式下存放，并且通常是汇总的。数据仓库提供一些数据分析能力，称作OLAP（联机分析处理）。

Ø 数据挖掘功能包括发现概念/类描述、关联和相关、分类、预测、聚类、趋势分析、离群点和偏差分析以及相似性分析。特征化和区分是数据汇总的形式。

Ø 模式表示知识，如果它易于理解的，在某种必然程度上对于检验数据是有效的，并且可能有用、新颖或者验证用户好奇的直觉。模式兴趣度度量，无论是客观的还是主观的，都可以用来指导发现过程。

Ø 数据挖掘系统可以根据所挖掘的数据库类型、所挖掘的知识类型、所使用的技术或应用加以分类。

Ø 我们研究了五种以数据挖掘查询形式说明数据挖掘任务的原语。这些原语说明任务相关的数据（即待挖掘的数据集）、挖掘的知识类型、背景知识（通常是概念分层形式）、兴趣度度量以及用来显示所发现模式的知识表示和可视化技术。

Ø 可以设计数据挖掘查询语言，支持即席的和交互的数据挖掘。数据挖掘查询语言（如DMQL）应当提供说明每种数据挖掘原语的命令。这种查询语言是基于SQL的，并且课能最终形成标准，称为数据挖掘图形用户界面的基础。

Ø 大型数据库中有效的数据挖掘对于研究者和开发者提出了大量需求和巨大的挑战。所涉及的问题包括数据挖掘方法、用户交互、性能和可伸缩性、以及大量不同数据类型的处理。其它问题包括数据挖掘的应用开发和它们的社会影响。

习题

posted on 2008-08-02 18:55 itolssy 阅读(1717) 评论(1) 收藏举报

刷新页面返回顶部

★P〓P★的随笔