BearOcean

Say HelloWorld
随笔 - 19, 文章 - 0, 评论 - 148, 引用 - 3
数据加载中……

数据挖掘概述

最近有机会接触到一些数据挖掘的东西.
个人感觉,这项技术一定会有较大的发展前景.
所以借助这篇文章,阐述一下自己对数据挖掘(Data Mining)的看法.
并一步一步地解释数据挖掘技术的概念.

(一)数据挖掘的产生

数据存储技术的发展与应用:
任何技术都必须与应用相结合.数据挖掘的应用是建立在数据存储的基础上的.简单地来说.
在过去的10年里.Internet的广泛应用以及企业的信息管理集成导致了数据存储技术的迅速发展

企业们已经习惯于将过去的纸面工作遗植到计算机上进行.数据库的使用为这项工作提供了基础.
也涌现了一大批优秀的数据库管理系统,类似于Oracle , Sqlserver. DB2 等等..但总的来说,这些数据库
都提供了同一个功能:数据存储.

人们可以自行构件程序来使用和管理这些数据.最初的应用聚集在检索和更新2项上.举个简单的例子:
当我们在cnblogs上提交一份随笔时.文章的实际内容将被运行于服务器端的Web应用程序提交到一个
数据库(一张表)里.
有人希望浏览它时,Web应用程序又会从数据库中将它检索出来.并通过网络将内容发送到浏览者的浏览器上.
我们也可以删除该随笔,数据库会负责将该文章的记录删除掉(或者是更新一个IsDeleted字段)



出现的问题:海量数据和数据坟墓:
海量数据是一个很形象的词汇.
一个大型超市(我确信它应用了销售管理系统)每天能产生多少销售记录?
回答是:上万条.
一年能产生多少数据?
回答是:海量数据.

但是,数据集是否能称作数据坟墓并非以数据的多寡来界定的.
当数据集多到失去意义的时候,便堕落成数据坟墓了.

以大型超市的销售记录为例,检索任何一条销售记录都失去了意义.
这些庞大的销售记录老实地呆在数据库里,10年没人去问候.也不会有任何人有精力去一条条地检索.
单纯地储存他们没有任何好处...也没有为企业带来任何的价值.
因为它实在是太巨大了.

统计.挖掘的雏形:
有人会说:我们面对大量销售记录的时候.当然不会去一条一条地检索,而是形成一张统计报表,提交到销售
经理的办公桌上.销售经理可以从上面查看今年的销售记录,每个季度的销售记录,每月平均销售记录等等.
这些,利用数据库是可以很容易办到的.当然有很多企业也确实这样做了.

大量的企业表示:我们的管理系统能够做到这样,已经足够了,我们很满意.
但是.在竞争如此激烈的经济世界中,有人提出:
储存在数据库中的数据,是否只能提供这些?它们是否蕴涵了更多的知识和规律,我们并没有成功的
发现.
我们的销售经理在决定下一年的销售策略时,往往会研究最近几年的销售额统计.而策略的决定仅仅依靠这些
仍然显得太主观.于是有一种感觉渐渐形成:我们没有充分利用我们以有的数据.

数据挖掘:
是否觉得数据挖掘仍然显得很空乏
一个具体的例子可以说明问题:
在数据挖掘中,有一个非常典型的应用,被称为购物篮分析.
在决定超市下一年货物架摆放方法时,销售经理总是主观地把面包和牛奶放在一块.但货物实际上
是非常多的.除了主观地决定策略,销售经理还希望他们的系统能够通过已有的销售记录给出一些更直观的
提示,甚至是直接形成一张货架摆放图.依据是:顾客通常更习惯于把什么样的货物放在构物车里.

所以,新的系统需要自动地从数据中挖掘出规律和对决策制定有帮助的信息.

这样,数据挖掘便产生了.
经历了:
数据存储技术--->统计--->数据挖掘与决策支持
产生的原动力是企业对"通过历史数据制定决策"的期望.
数据挖掘的定义最后也很容易的归结为:从海量数据中提取有价信息和知识".





posted on 2006-07-04 13:37 BearOcean 阅读(1566) 评论(10)  编辑 收藏 所属分类: Data Mining

评论

#1楼    回复  引用  查看    

被神话了的技术
2006-07-04 14:19 | 笨小苏      

#2楼    回复  引用  查看    

数据挖掘说白了,就是精耕细种
神话不神话,要看企业管理者的水平
很多决策者,都是找一种感觉,数据挖掘对于他来说,的确是多余

楼主要是有兴趣,可以再详细介绍一下细节
2006-07-04 14:46 | 老燕      

#3楼    回复  引用  查看    

对于超市来说,庞大的数据其背后隐藏的是各种各样的消费模式。

男人和女人的消费模式不一致
老人和年轻人的消费模式不一致

数据挖掘就是根据海量数据发掘出这些模式,将用户群细化,并针对性的制定营销策略,迎合其消费模式而促进销售
2006-07-04 15:24 | Icebird      

#4楼    回复  引用  查看    

文章似乎太空洞了点
2006-07-04 18:24 | U2U      

#5楼    回复  引用  查看    

数据挖掘要做的好,必须要有好的样本数据,另外关键还是人,再看看国内的企业数据质量,想真正做好数据挖掘还是很困难的!
2006-07-04 21:12 | G51015      

#6楼 [楼主]   回复  引用  查看    

你们说得都很对。
其实数据挖掘更像一种理念。
至于楼上的所说。关键在于人,这点也是很重要的。
另外关于数据质量的问题,可以在进入分析前进行预处理做一定的规范和概化。
基本来说,还是有很大一部分企业的数据可以进行挖掘的。

至于文章空洞的问题。:)
这是作者我的问题。我会进一步补全的。
但是所有的问题都要讨论到。我想我就不用工作了。
我仍然认为中国企业缺乏精细化管理。
正是这样,数据挖掘在中国才存在市场。当然市场与挑战也是同时存在的。
2006-07-05 01:05 | BearOcean      

#7楼    回复  引用  查看    

楼主可以写一些数据挖掘模型方面,以及介绍一下DMX等

这方面的文章似乎比较少
2006-07-05 08:43 | TerryLee      

#8楼    回复  引用  查看    

msdn的webcast上也有二课是讲数据挖掘的,可以去看看
2006-07-05 17:32 | 苍冥      

#9楼    回复  引用  查看    

统计学在海量数据面前,焕发了第2春

#10楼    回复  引用  查看    

我感觉楼主认识挺到位.
2007-03-12 14:14 | yunhuasheng      

标题  
姓名  
主页
Email (只有博主才能看到) 
验证码 *  看不清,换一张
内容(请不要发表任何与政治相关的内容)  
  登录  使用高级评论  新用户注册  返回页首  恢复上次提交      
该文被作者在 2006-07-04 13:41 编辑过
 
另存  打印
最新IT新闻:
· 微软高管:Wii用户最终会成为Xbox 360用户
· 遵守YouTube案裁定 谷歌将陷入隐私指控深渊
· iPhone入华在即 中国手机产业生存面临考验
· 阿里巴巴集团再向淘宝注资20亿元
· 56被关一月 危机的是整个视频业