什么是数据挖掘?

毫不奇怪,作为一个多学科领域,数据挖掘可以用多种方法定义。即使术语“数据挖掘”本身实际上也不能完全表达其主要含义。从矿石或砂子中挖掘黄金称做黄金挖掘,而不是砂石挖掘。类似地,数据挖掘应当更正确地命名为“从数据中挖掘知识”,不幸的是这有点长。然而,较短的术语“知识挖掘”可能反映不出强调的是从大量数据中挖掘。毕竟,“挖掘”是一个很生动的术语,它抓住了从大量的、未加工的材料中发现少量宝贵金块这一过程的特点。这样,这种不恰当的用词包含了“数据”和“挖掘”,成了一种流行的选择。此外,还有一些术语具有和数据挖掘类似的含义,例如从数据中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。

许多人把数据挖掘视为另一个流行术语数据中的知识发现(KDD)的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤。知识发现过程以下步骤的迭代序列组成:

 (1)数据清理(消除噪声和删除不一致数据)。
 (2)数据集成(多种数据源可以组合在一起)。
 (3)数据选择(从数据库中提取与分析任务相关的数据)。
 (4)数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)。
 (5)数据挖掘(基本步骤,使用智能方法提取数据模式)。
 (6)模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式。
 (7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。*

这种观点把数据挖掘看做知识发现过程中的一个步骤,尽管是最重要的一个步骤,因为它发现用来评估的隐藏模式。然而,在产业界、媒体和研究界,“数据挖掘”通常用来表示整个知识发现过程(或许因为术语“数据挖掘”比“从数据中发现知识”短)。因此,我们采用广义的数据挖掘功能的观点:数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据

文章内容来源:《数据挖掘概念与技术》

posted @ 2017-11-08 22:33  keepgoon  阅读(619)  评论(0编辑  收藏  举报