11 2014 档案

摘要:准备3台虚拟机, 系统是RHEL64服务版. 1) 每台机器配置如下:$ cat /etc/hosts # zookeeper hostnames: 192.168.8.182 zk1 192.168.8.183 zk2 192.168.8.184 zk3 2) 每台机器上安装jdk, zoo... 阅读全文
posted @ 2014-11-25 17:16 TonyChai 阅读(683) 评论(0) 推荐(0)
摘要:Replication简介 Kafka中的Replication功能是为了给每个partition提供备份,当某个Broker挂掉时可以迅速实现故障切换(failover)。我们可以在创建或修改topic时指定replica factor,来设定备份数目。请阅读如下实例来准确理解该参数作用:如果一个... 阅读全文
posted @ 2014-11-25 16:40 TonyChai 阅读(1006) 评论(0) 推荐(0)
摘要:除了使用Hive,Pig来执行一个MapReduce任务,不需要专门的把项目打成jar包,提交执行,或者定时执行,因为Hive,Pig这些开源框架已经,帮我们自动打包上传了。而有些时候,我们自己手写了一个MapReduce的任务,然后这个任务里面依赖了其他的第三方包,比如说是Lucene的,或者是S... 阅读全文
posted @ 2014-11-20 10:37 TonyChai 阅读(860) 评论(0) 推荐(0)
摘要:参数 取值 备注fs.default.nameNameNode的URI。hdfs://主机名/dfs.hosts/dfs.hosts.exclude许可/拒绝DataNode列表。如有必要,用这个文件控制许可的datanode列表。d... 阅读全文
posted @ 2014-11-20 10:31 TonyChai 阅读(170) 评论(0) 推荐(0)
摘要:要处理复杂关系的数据,一个工程里面绝对不止一个MapReduce作业,当有多个MapReduce作业时, 并且每个作业之间有依赖关系,所谓的依赖就是一个作业得到的结果是另外一个作业的输入,这个时候我们可 以使用JobControl吊用其中的的addDepending()方法,管理每个M... 阅读全文
posted @ 2014-11-20 10:29 TonyChai 阅读(801) 评论(0) 推荐(0)
摘要:HDFS 常用的文件操作命令hdfs dfs -text /pub/20151019/1/4/gwmvod/mediags.moretv.com.cn/*.bz2 | wc -lhdfsdfs-du-s-h/pub/20151019/1/4/gwmvod/mediags.moretv.com.cn... 阅读全文
posted @ 2014-11-18 10:35 TonyChai 阅读(1525) 评论(0) 推荐(0)