08 2012 档案

摘要:MDX中的脚本可以看作是Analysis Services中已有计算单元功能的一个升级版本,但是它并不能完全取代计算单元。MDX脚本:就是一串能够对SSAS2005多维数据集中数据产生影响的命令。使用这些命令可以创建计算成员,命名集,计算单元以及本书中其他地方所处理的所有主体。MDX脚本中的每条命令都必须以分号结尾。一个多维数据集可以拥有0个一个或者多个与之关联的MDX脚本,如果某个多维数据集中没有MDX脚本,那么服务器将会假设他拥有一个仅包含单条CALCULATE()语句的空脚本。当一个多维数据集中包含多个MDX脚本的时候,在任何时刻都只能有一个处于活跃状态。处于活跃状态的MDX脚本是多维数 阅读全文
posted @ 2012-08-15 14:31 honkcal 阅读(1798) 评论(0) 推荐(0)
摘要:理解控制流和数据流的一个入口是看他们如何运行的。一个控制流任务是一个最小的执行单位,它的运行结果有成功,失败,和完成,在运行它的下一个任务之前必须得到这些结果。在数据流任务中,转换时最基本的元素。一个转换任务和控制任务是有很大的区别的。转换任务之间是可以并行执行的,不必等待上一个转换任务执行完毕。 控制流和数据流之间的比较控制流和数据流之间看上去很相似,但是他们有天壤之别。控制流不会处理组件之间的数据,它负责协调单独的组件单元之间的工作。这里有一些概念: 工作流协调 处理导向 顺序的或平行的任务的执行 异步处理控制流任务可以顺序的执行,大多数时候他们会同时以这两种方式来执行。... 阅读全文
posted @ 2012-08-03 16:55 honkcal 阅读(1133) 评论(0) 推荐(0)
摘要:Hadoop是Apache 下的一个项目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员。HDFS是Google GFS 的开源版本,一个高度容错的分布式文件系统,它能够提供高吞吐量的数据访问,适合存储海量(PB 级)的大文件(通常超过64M),其原理如下图所示:采用Master/Slave 结构。NameNode 维护集群内的元数据,对外提供创建、打开、删除和重命名文件或目录的功能。DatanNode 存储数据,并提负责处理数据的读写请求。DataNode定期向NameNode 上报心跳,N 阅读全文
posted @ 2012-08-01 14:08 honkcal 阅读(2920) 评论(1) 推荐(0)
摘要:数据挖掘是从大量的,不完全的,有噪声的,模糊的,随即的数据中,提取隐含在其中的,人们事先不知道的,但有潜在的有用信息和知识的过程。数据挖掘过程一般包括数据采集,数据预处理,数据挖掘以及知识评价和呈现。在一个完整的数据挖掘过程中,数据预处理要花费60%左右的时间,而后的挖掘工作仅仅占工工作量的10%左右。目前对挖掘的研究主要集中于挖掘技术,挖掘算法,挖掘语言等在海量的原始数据中,存在这大量杂乱的,重复则,不完整的数据,严重影响到数据挖掘算法的执行效率,有可能导致挖掘结果的偏差。数据预处理分类:从对不同的源数据进行预处理的功能来分,数据预处理主要包括数据清理,数据集成,数据变换,数据规约等4个基本 阅读全文
posted @ 2012-08-01 00:37 honkcal 阅读(11269) 评论(0) 推荐(0)