随笔档案「2012年8月」 - honkcal

SSAS中的MDX脚本

摘要：MDX中的脚本可以看作是Analysis Services中已有计算单元功能的一个升级版本，但是它并不能完全取代计算单元。MDX脚本：就是一串能够对SSAS2005多维数据集中数据产生影响的命令。使用这些命令可以创建计算成员，命名集，计算单元以及本书中其他地方所处理的所有主体。MDX脚本中的每条命令都必须以分号结尾。一个多维数据集可以拥有0个一个或者多个与之关联的MDX脚本，如果某个多维数据集中没有MDX脚本，那么服务器将会假设他拥有一个仅包含单条CALCULATE()语句的空脚本。当一个多维数据集中包含多个MDX脚本的时候，在任何时刻都只能有一个处于活跃状态。处于活跃状态的MDX脚本是多维数阅读全文

posted @ 2012-08-15 14:31 honkcal 阅读(1798) 评论(0) 推荐(0)

SSIS 控制流和数据流(转)

摘要：理解控制流和数据流的一个入口是看他们如何运行的。一个控制流任务是一个最小的执行单位，它的运行结果有成功，失败，和完成，在运行它的下一个任务之前必须得到这些结果。在数据流任务中，转换时最基本的元素。一个转换任务和控制任务是有很大的区别的。转换任务之间是可以并行执行的，不必等待上一个转换任务执行完毕。控制流和数据流之间的比较控制流和数据流之间看上去很相似，但是他们有天壤之别。控制流不会处理组件之间的数据，它负责协调单独的组件单元之间的工作。这里有一些概念： 工作流协调 处理导向 顺序的或平行的任务的执行 异步处理控制流任务可以顺序的执行，大多数时候他们会同时以这两种方式来执行。... 阅读全文

posted @ 2012-08-03 16:55 honkcal 阅读(1133) 评论(0) 推荐(0)

Hadoop MapReduce 原理

摘要：Hadoop是Apache 下的一个项目，由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中，HDFS 和MapReduce 是两个最基础最重要的成员。HDFS是Google GFS 的开源版本，一个高度容错的分布式文件系统，它能够提供高吞吐量的数据访问，适合存储海量（PB 级）的大文件（通常超过64M），其原理如下图所示：采用Master/Slave 结构。NameNode 维护集群内的元数据，对外提供创建、打开、删除和重命名文件或目录的功能。DatanNode 存储数据，并提负责处理数据的读写请求。DataNode定期向NameNode 上报心跳，N 阅读全文

posted @ 2012-08-01 14:08 honkcal 阅读(2920) 评论(1) 推荐(0)

数据预处理

摘要：数据挖掘是从大量的，不完全的，有噪声的，模糊的，随即的数据中，提取隐含在其中的，人们事先不知道的，但有潜在的有用信息和知识的过程。数据挖掘过程一般包括数据采集，数据预处理，数据挖掘以及知识评价和呈现。在一个完整的数据挖掘过程中，数据预处理要花费60%左右的时间，而后的挖掘工作仅仅占工工作量的10%左右。目前对挖掘的研究主要集中于挖掘技术，挖掘算法，挖掘语言等在海量的原始数据中，存在这大量杂乱的，重复则，不完整的数据，严重影响到数据挖掘算法的执行效率，有可能导致挖掘结果的偏差。数据预处理分类：从对不同的源数据进行预处理的功能来分，数据预处理主要包括数据清理，数据集成，数据变换，数据规约等4个基本阅读全文

posted @ 2012-08-01 00:37 honkcal 阅读(11269) 评论(0) 推荐(0)

Honkcal

有些东西很简单。有些东西很难，难了就多看几遍，便简单了。

08 2012 档案

公告