摘要: 使用hive cli的时候,会读取.hiverc脚本,在.hiverc脚本里可以做一些自己的预设。比如:set hive.cli.print.current.db=true;set hive.cli.print.header=true;.hiverc可以放在~(linux用户家目录)、$HIVE_HOME/conf、$HIVE_HOME/bin目录下。来自为知笔记(Wiz) 阅读全文
posted @ 2015-06-08 12:17 lishouguang 阅读(545) 评论(0) 推荐(0)
摘要: 1、下载hive并压缩2、修改conf下的文件 1)去掉所有文件的后缀.template 2)复制hive-default.xml为hive-site.xml,并编辑hive-site.xml中的内容为空: 3)编辑hive-env.sh里的内容:export JAVA_HOME=~/java/jdk1.6.0_45export HADOOP_HOME=~/hadoop-2.2.... 阅读全文
posted @ 2015-06-08 12:15 lishouguang 阅读(154) 评论(0) 推荐(0)
摘要: Kafka版本是:kafka_2.10-0.8.2.11、maven工程方式在pom.xml中配置kafka依赖12345org.apache.kafkakafka_2.100.8.2.12、普通java工程方式依赖的jar包如下: 阅读全文
posted @ 2015-06-08 12:03 lishouguang 阅读(432) 评论(0) 推荐(0)
摘要: 使用java实现Kafka的消费者123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596... 阅读全文
posted @ 2015-06-08 12:00 lishouguang 阅读(21619) 评论(0) 推荐(0)
摘要: 使用java实现Kafka的生产者123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869package com.lisg.kafkatest; import java.util.Propertie... 阅读全文
posted @ 2015-06-08 11:59 lishouguang 阅读(10257) 评论(0) 推荐(0)
摘要: 三台机器:vm1、vm2、vm31、部署zookeeper集群假设已经有一个部署好了的zookeeper集群:zk1、zk2、zk32、下载、解压kafka1tar -xzvf kafka_2.10-0.8.2.1.tgz3、修改vm1上面的config/server.properties1234b... 阅读全文
posted @ 2015-06-08 11:57 lishouguang 阅读(503) 评论(0) 推荐(0)
摘要: 介绍Kafka是一个分布式的、分区的、冗余的日志提交服务。它使用了独特的设计,提供了所有消息传递系统所具有的功能。我们先来看下几个消息传递系统的术语:Kafka维护消息类别的东西是主题(topic).我们称发布消息到Kafka主题的进程叫生产者(producer).我们称订阅主题、获取消息的进程叫消... 阅读全文
posted @ 2015-06-08 11:55 lishouguang 阅读(1764) 评论(0) 推荐(1)
摘要: 注册UDFdo.pig的内容如下:register /xx/yy.jardata = load 'data';result = foreach data generate aa.bb.Upper($0);dump result; register的路径可以是本地路径,也可以是hdfs路径regis... 阅读全文
posted @ 2015-06-07 22:41 lishouguang 阅读(556) 评论(0) 推荐(0)
摘要: parallel语句可以附加到Pig Latin中任一个关系操作符后面,然后它会控制reduce阶段的并行,因此只有对与可以触发reduce过程的操作符才有意义。 可以触发reduce过程的操作符有:group、order、distinct、join、cogroup、cross设置paralle... 阅读全文
posted @ 2015-06-07 22:38 lishouguang 阅读(748) 评论(0) 推荐(0)
摘要: some = sample data 0.1遍历整个数据集,获取指定比例的行数的数据,获取的数据不确定,条数也不准确。内部重写为filter data by random() <= 0.1抽取100行数据data = load 'data';grpd = group data all;sums = ... 阅读全文
posted @ 2015-06-07 22:37 lishouguang 阅读(628) 评论(0) 推荐(0)