数据挖掘(Data Mining)初探

经过这几天在网络上对数据挖掘方面的资料查询和整理，基本对数据挖掘是什么以及数据挖掘能干什么有了一点肤浅的了解，同时也对如何在以Xml为基石的下一代互联网上有效的进行数据挖掘有了那么一点点想法；如下所述：

首先，什么是数据挖掘一文建立了一个清晰的概念：“数据挖掘是一种潜在的功能强大的新技术，它能帮助企业在他们的数据仓库中找到最重要的信息。数据挖掘工具能预测未来趋势和行为，使得商务活动具有前瞻性，并作出具有知识驱动的决策。数据挖掘所提供的自动的预期分析已经远远超出由典型的决策支持系统工具对过去事件所做的回顾性分析的范围。数据挖掘工具可以回答传统上需费很多时间解决的商务问题。它能搜遍数据库去查找隐藏的模式，找出那些专家也会错过的预测信息，因为它并不在人们期待的位置上；” 。个人理解为，数据挖掘不同于以往数据库信息检索的实质就是：后者得到的只是一组数据库中记录的数据，或者符合f(x)关系的组合数据，而前者得到的是一种需要大量专业人士对已有数据进行周密分析而得出的一种结论；

接下来，谈谈数据挖掘技术的发展；根据数据挖掘概述一文的观点知，正因为以下的三项技术（海量数据搜集，强大的多处理器计算机，数据挖掘算法）的发展已经趋于成熟，所以导致数据挖掘技术已经从一种构想成为了可以马上投入商业使用的技术;以下是数据挖掘带来的从商业数据到商业信息的进化过程：

进化阶段	商业问题	支持技术	产品厂家	产品特点
数据搜集 (60年代)	“过去五年中我的总收入是多少？”	计算机、磁带和磁盘	IBM, CDC	提供历史性的、静态的数据信息
数据访问 (80年代)	“在新英格兰的分部去年三月的销售额是多少？”	关系数据库（RDBMS），结构化查询语言（SQL），ODBC	Oracle、Sybase、Informix、IBM、Microsoft	在记录级提供历史性的、动态数据信息
数据仓库；决策支持 (90年代)	“在新英格兰的分部去年三月的销售额是多少？波士顿据此可得出什么结论？”	联机分析处理（OLAP）、多维数据库、数据仓库	Pilot、Comshare、Arbor、Cognos、Microstrategy	在各种层次上提供回溯的、动态的数据信息
数据挖掘（正在流行）	“下个月波士顿的销售会怎么样？为什么？”	高级算法、多处理器计算机、海量数据库	Pilot、Lockheed、IBM、SGI、其他初创公司	提供预测性的信息

还有上文附上的两个应用的例子:

自动趋势预测。数据挖掘能自动在大型数据库里面找寻潜在的预测信息。传统上需要很多专家来进行分析的问题，现在可以快速而直接地从数据中间找到答案。一个典型的利用数据挖掘进行预测的例子就是目标营销。数据挖掘工具可以根据过去邮件推销中的大量数据找出其中最有可能对将来的邮件推销作出反应的客户。

自动探测以前未发现的模式。数据挖掘工具扫描整个数据库并辨认出那些隐藏着的模式，比如通过分析零售数据来辨别出表面上看起来没联系的产品，实际上有很多情况下是一起被售出的情况。

引申到导师提出的基于空间(地理)信息的数据挖掘来看，个人也凭空捏造出两个例子，不知正确与否，还请多多指教:

自动趋势预测 根据曾经的冰期情况，以及近百年来地球气候所发生的变化，综合北冰洋地壳变化的趋势，再考虑北冰洋附近的洋流信息；推测北冰洋溶化的近似时间；这就是近期Hollywood大片《The Day After Tomorrow》中的经典数据挖掘范例；

自动探测以前未发现的模式 通过对空间信息数据库的扫描，从近年来某地区的地壳运动，地下水变化情况，得到本地区气候变化与以上因素的某种关系；即得到一种模式

对于数据挖掘的优势，从以下两点可以体现：

深度上，允许有更多的列存在。以往，在进行较复杂的数据分析时，专家们限于时间因素，不得不对参加运算的变量数量加以限制，但是那些被丢弃而没有参加运算的变量有可能包含着另一些不为人知的有用信息。现在，高性能的数据挖掘工具让用户对数据库能进行通盘的深度编历，并且任何可能参选的变量都被考虑进去，再不需要选择变量的子集来进行运算了。

广度上，允许有更多的行存在。更大的样本让产生错误和变化的概率降低，这样用户能更加精确地推导出一些虽小但颇为重要的结论。

最后简单说说数据挖掘所使用到的技术：

人工神经网络：仿照生理神经网络结构的非线形预测模型，通过学习进行模式识别。
决策树：代表着决策集的树形结构。
遗传算法：基于进化理论，并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。
近邻算法：将数据集合中每一个记录进行分类的方法。
规则推导：从统计意义上对数据中的“如果-那么”规则进行寻找和推导。

由于目前本科知识所限，无法对数据挖掘的具体算法进行深入研究，个人认为只能就数据挖掘系统的结构方面提出一个概念模型；还有一个问题就是，似乎数据挖掘解决的只是针对某个特定问题的，不存在一个泛性的结构解决所有问题，试想能不能提供一种统一模型，以面向服务的方式，以统一借口来解决不同问题呢？考虑中……

posted on 2004-07-01 17:00 数码幽灵阅读(9992) 评论(17) 收藏举报

刷新页面返回顶部

数码幽灵的自学Blog

公告