12 2013 档案

Hive remote install mode (mysql) step by step
摘要:Prerequisite:Hadoop cluster is avalable;Mysql installed on namenode;Step1: download the latest hive tar packages and extract .Download:http://apache.dataguru.cn/hive/hive-0.12.0/tar xvf tar xvf hive-0.12.0.tar.gzStep2: set the environment for hive.# su to root add hive homeVim /etc/profileexport HIV 阅读全文

posted @ 2013-12-31 05:58 tneduts 阅读(1021) 评论(5) 推荐(0)

Hbase step by step 完全分布式安装
摘要:Step1: download and extract the packages: http://mirror.bit.edu.cn/apache/hbase/stable/ Step2: set the environment variable(not must, just easy to sta 阅读全文

posted @ 2013-12-29 11:43 tneduts 阅读(751) 评论(6) 推荐(0)

MSBI BigData demo—sqoop import
摘要:--sp_readerrorlog 读取错误的信息记录 exec sys.sp_readerrorlog 0, 1, 'listening'查看端口号首先hadoop环境要配置完毕,并检验可以正常启动并使用.在hadoop的namenode上安装sqoop,并设置相关的环境变量.如HADOOP_HOME也是需要先配置好的.否则提示找不到hadoop,Error: /usr/lib/hadoop does not exist!我的实验环境是apache hadoop 1.0.4 ,java 1.7, sqoop 1.4.在本机上安装了三台centos的linux系统作为小集群测试 阅读全文

posted @ 2013-12-28 12:54 tneduts 阅读(975) 评论(0) 推荐(0)

SSIS XML source demo
摘要:以下是一个使用xml作为source的SSIS package示例:自动生成的xsd.把两个结点merge join成一条记录。示例XML如下:white snowliterial123456lovestory123457View Code 阅读全文

posted @ 2013-12-28 10:43 tneduts 阅读(355) 评论(0) 推荐(0)

Cassandra 分布式集群
摘要:1 实施Cassandra集群,并验证集群功能正常,抓图实验过程 2 为什么说对于布隆过滤器有"确定某个元素是否在某个集合中的代价和总的元素数目无关"?误判率和元素数目有关吗?为什么? First, make sure that the nodes in the cluster all have the same name and the same keyspace definitions so that the new node can accept data.Edit the config file on the second node to indicate that 阅读全文

posted @ 2013-12-26 17:16 tneduts 阅读(1936) 评论(0) 推荐(0)

BI Project Managerment
摘要:Design doc is the meta data of the code. The project management plan is crucial to your project since it is the basis on which the project will be measured. It can be used to aid in communication between stakeholders and to define the content and timing of project reviews. Here are some elements tha 阅读全文

posted @ 2013-12-26 13:55 tneduts 阅读(408) 评论(0) 推荐(0)

再学TSQL基础--单表查询
摘要:本内容是我学习tsql2008的阅读笔记什么是关系模型?若对列创建唯一约束,背后中的物理机制也是创建了一个唯一索引.SQL语句的逻辑解析顺序是FROMWHEREGROUP BYHAVINGSELECTOVERDISTINCTTOPORDER BY如果SELECT语句中涉及到分组,则后面的select order having的操作对象将是分组。所有聚合函数都会忽略NULL值,只有count(*)除外。带有order by子句的查询被ANSI称之为游标。表表达式不能处理游标。TOP 是TSQL所特有的,用来限制返回的行数或百分比。开窗函数使用OVER子句提供窗口作为上下文,对窗口中的一组值进行操 阅读全文

posted @ 2013-12-26 09:42 tneduts 阅读(247) 评论(0) 推荐(0)

pig 介绍与pig版 hello world
摘要:前两天使用pig做ETL,粗浅的看了一下,没有系统地学习,感觉pig还是值得学习的,故又重新看programming pig.以下是看的第一章的笔记:What is pig?Pig provides an engine for executing data flows in parallel on Hadoop. It includes alanguage, Pig Latin, for expressing these data flows. Pig Latin includes operators formany of the traditional data operations (jo 阅读全文

posted @ 2013-12-09 14:29 tneduts 阅读(450) 评论(0) 推荐(0)

xml in hadoop ETL with pig summary
摘要:项目中需要把source为xml的文件通过flume放置到hdfs,然后通过MR导入到vertica中去,我之前做过简单的尝试,是通过pig的piggybank的xmlloader然后Regex_extract来提取结点属性做的,但问题是我之前只取了一层结点的属性,没有把不同层次结点关联起来,这有三四层,结构比较复杂,我需要重新整理思路.这种方式很可能走不通,因为piggybank里面regex_extract的正则和传统的正则还是有些异同的.常常会因为正则写的不合适经常返回空元组.我是一个c# guy,又不会用纯java写MR,所以就进一步搜索了google.查找相关资料.1.把XML先转成 阅读全文

posted @ 2013-12-09 07:18 tneduts 阅读(556) 评论(0) 推荐(0)

Mongodb--gridfs与分片实验
摘要:1.放置一个大文件到gridfs,查看fs.chunks和fs.files的情况.Step1.开启一台mongod服务../mongod --dbpath dbs/master 登录mongo查看数据库中fs.files和fs.chunks的情况: Db.fs.chunks.find()后刷屏: 2. 实施分片,验证分片成功,抓图实验过程首先.配置数据库目录,config,no... 阅读全文

posted @ 2013-12-07 22:17 tneduts 阅读(1493) 评论(0) 推荐(0)

MSBI--enlarge the DW database table volume
摘要:我们在学习MSBI的时候,经常会使用官方提供的Adventureworks和AdventureworksDW示例数据库,但是官方提供的数据量有点小,以DW为例,Factinternetsales只有不到七万行的数据,我们很难做某些测试,譬如说想对事实表做一个分区测试,测试CUBE性能等.为此,我想以FactInternetSales表为入口,扩大它的数据量到数亿条.经过分析,我觉得只要把理解主键是怎么生成的,以及orderdatekey,duedatekey,shipdatekey修改下,随机生成productkey与customerkey(其实是随机从这两个维表中抽取key),基本上就可以装 阅读全文

posted @ 2013-12-06 08:27 tneduts 阅读(859) 评论(2) 推荐(1)

SSAS CUBE TEST CASES
摘要:经过周末两天和今天的努力,基本上完成并修复了一些bug并且集成到我的MSBIHelper项目中去,可以进行数据测试了.效果图如下:可以帮助开发人员快速生成等值的Tsql和mdx查询,辅助测试人员快速完成test cases的开发.下一步准备开发的功能是进行数据比对,其实我之前有完成一个SSIS的packages,来比对tsql和mdx的数据集,而这个工具生成的刚好是 那个SSIS packages的数据源.下次把那个package贴上来. 有兴趣的读者可以到以下地址下载,绿色软件,无需安装:解压可用.需要安装Sqlserver的SSIS SSAS平台.dotnet3.5 framework. 阅读全文

posted @ 2013-12-02 20:05 tneduts 阅读(647) 评论(0) 推荐(1)

Mongodb 主从复制与副本集实验
摘要:1.实验主从复制,并验证复制成功,抓图实验过程 Step1:创建相应的目录 Mkdir -p ./dbs/master Mkdir -p ./dbs/slave Step2:开启主服务 ./bin/mongod --dbpath ./dbs/master --port 10000 --master Step3:开启salve: ./bin/mongod --dbpath ./dbs/sl... 阅读全文

posted @ 2013-12-01 11:40 tneduts 阅读(320) 评论(0) 推荐(0)

导航