摘要: SPSS Clenmentines提供众多的预测模型,这使得它们可以应用在多种商业领域中:如超市商品如何摆放可以提高销量;分析商场营销的打折方案,以制定新的更为有效的方案;保险公司分析以往的理赔案例,以推出新的保险品种等等,具有很强的商业价值。超市典型案例如何摆放超市的商品引导消费者购物从而提高销量,这对大型连锁超市来说是一个现实的营销问题。关联规则模型自它诞生之时为此类问题提供了一种科学的解决方法。该模型利用数据挖掘的技术,在海量数据中依据该模型的独特算法发现数据内在的规律性联系,进而提供具有洞察力的分析解决方案。通过一则超市销售商品的案例,利用“关联规则模型”,来分析商品交易流水数据,以其 阅读全文
posted @ 2012-04-27 16:07 dekevin 阅读(1382) 评论(0) 推荐(0)
摘要: 了解SPSS Clementine的基本应用后,再对比微软的SSAS,各自的优缺点就非常明显了。微软的SSAS是Service Oriented的数据挖掘工具,微软联合SAS、Hyperion等公司定义了用于数据挖掘的web服务标准——XMLA,微软还提供OLE DB for DM接口和MDX。所以SSAS的优势是管理、部署、开发、应用耦合方便。但SQL Server 2005使用Visual Studio 2005作为客户端开发工具,Visual Studio的SSAS项目只能作为模型设计和部署工具而已,根本不能独立实现完整的Crisp-DM流程。尽管MS Excel也可以作为SSAS的客户 阅读全文
posted @ 2012-04-27 15:52 dekevin 阅读(1391) 评论(0) 推荐(0)
摘要: 欧美企业对商务智能的应用 商务智能活动在美国和欧洲比在世界上任何其他地区都要发达,商务智能已经由“旁门左道”转变为“主门正道”。欧美的企业已经认识到商务智能的重要意义,因而对它寄予很高的期望,希望能够通过商务智能充分利用企业以往对信息技术的投资、改善决策、提高利润、提高运营效率和增强透明度。而在这些市场上,商务智能厂商之间的竞争已趋于白热化状态,因而各个厂商使出浑身解数去争取竞争优势。不过,就算是在世界上商务智能最发达的这些地区,企业对商务智能的部署也多是部门性的和战术性的。商务智能的理想和现实之间仍然存在了一条“成熟性沟壑”(见下图),商务智能要想实现其在企业中的战略性地位还有很长一段路要走 阅读全文
posted @ 2012-04-27 15:43 dekevin 阅读(481) 评论(0) 推荐(0)
摘要: 增量是以一个时间段为计量单位,记录该段时间内较以前增加的数据记录。增量抽取是将该段时间内增长的记录查找出来。增量抽取一般有三种抽取模式,用于捕获源系统新增的数据到系目标库中1)、时间戳方式,要求源表中存在一个或多个字段(时间戳),其值随着新纪录的增加而不断增加,执行数据抽取时,程序通过时间戳对数据进行过滤,抽取结束后,程序记录时间戳信息。2)、触发器方式。要求用户在源数据库中有创建触发器和临时表的权限,触发器捕获新增的数据到临时表中,执行抽取时,程序自动从临时表中读取数据。(这种方式现在觉得挺可取的,这样的话每次进行数据抽取的时候数据就变少了,但是这种方式要求每个表中都建有触发器,而且改动会比 阅读全文
posted @ 2012-04-27 15:38 dekevin 阅读(5085) 评论(0) 推荐(0)
摘要: 在需要进行包配置的SSIS包的控制流的界面中右键单击:在上图中选择【包配置】:在弹出的上图中的界面中选择【浏览】,弹出:在上图中选择好保存报配置文件的位置(文件夹),并且给文件命好名称,然后点击保存,然后点击【下一步】,点击【完成】,则包配置就完成了。配置文件保存在相应的文件夹下面。 阅读全文
posted @ 2012-04-27 15:11 dekevin 阅读(323) 评论(0) 推荐(0)
摘要: 下面使用Adventure Works数据库中的Target Mail作例子,通过建立分类树和神经网络模型,决策树用来预测哪些人会响应促销,神经网络用来预测年收入。Target Mail数据在SQL Server样本数据库AdventureWorksDW中的dbo.vTargetMail视图,关于Target Mail详见:http://technet.microsoft.com/zh-cn/library/ms124623.aspx#DataMining或者我之前的随笔:http://www.cnblogs.com/esestt/archive/2007/06/06/773705.html1 阅读全文
posted @ 2012-04-27 15:03 dekevin 阅读(545) 评论(0) 推荐(0)
摘要: SPSSClementine是Spss公司收购ISL获得的数据挖掘工具。在Gartner的客户数据挖掘工具评估中,仅有两家厂商被列为领导者:SAS和SPSS。SAS获得了最高ability to execute评分,代表着SAS在市场执行、推广、认知方面有最佳表现;而SPSS获得了最高的completeness of vision,表明SPSS在技术创新方面遥遥领先。客户端基本界面 SPSS Clementine(在此简称clementine)在安装好后会自动启用服务,服务端的管理需要使用SPSS Predictive Enterprise Manager,在服务端clementine没有复杂 阅读全文
posted @ 2012-04-27 14:56 dekevin 阅读(644) 评论(0) 推荐(0)
摘要: 线性回归数据来自于国泰安数据服务中心的经济研究数据库。网址:http://www.gtarsc.com/p/sq/。数据名称为:全国各地区能源消耗量与产量,该数据的年度标识为2006年,地区包括我国30个省,直辖市,自治区(西藏地区无数据)。1.1 数据预处理数据预处理包括的内容非常广泛,包括数据清理和描述性数据汇总,数据集成和变换,数据归约,数据离散化等。本次实习主要涉及的数据预处理只包括数据清理和描述性数据汇总。一般意义的数据预处理包括缺失值填写和噪声数据的处理。于此我们只对数据做缺失值填充,但是依然将其统称数据清理。1.1.1 数据导入与定义单击“打开数据文档”,将xls格式的全国各地区 阅读全文
posted @ 2012-04-27 11:38 dekevin 阅读(30101) 评论(1) 推荐(2)
摘要: 聚类分析是将物理或者抽象对象的集合分成相似的对象类的过程。本次实验我将对同一批数据做两种不同的类型的聚类;它们分别是系统聚类和K-mean聚类。其中系统聚类的聚类方法也采用3种不同方法,来考察对比它们之间的优劣。由于没有样本数据,因此不能根据其数据做判别分析。评价标准主要是观察各聚类方法的所得到的类组间距离和组内聚类的大小。分析数据依然采用线性回归所使用的标准化后的能源消费数据。1.1 系统聚类本次实验的系统聚类都是凝聚系统聚类,为了控制变量,都采用平方Euclidean距离。1.1.1 最短距离聚类法最短距离法聚类步骤如下:规定样本间的距离,计算样本两两之间的距离,得到对称矩阵。开始每个样品 阅读全文
posted @ 2012-04-27 11:31 dekevin 阅读(27501) 评论(0) 推荐(1)
摘要: 要领一:确定网站主题 做网站,首先必须要解决的就是网站内容问题,即确定网站的主题。美国《个人电脑》杂志(PC Magazine)评出了99年度排名前100位的全美知名网站的十类题材:第1类:网上求职;第2类:网上聊天/即时信息/ICQ;第3类:网上社区/讨论/邮件列表;第4类:计算机技术;第5类:网页/网站开发;第6类:娱乐网站;第7类:旅行;第8类:参考/资讯;第9类:家庭/教育;第10类:生活/时尚。我们可以参看上面的分类,继续细分。如果自己在某些方面有兴趣,或掌握的资料较多,也可以做一个自己感兴趣的东西,一者,你可以有自己的见解,做出自己的特色;二者,在制作网站时不会觉得无聊或者力不从心 阅读全文
posted @ 2012-04-27 08:32 dekevin 阅读(1281) 评论(0) 推荐(0)