随笔分类 - BI—Hadoop
摘要:Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKe...
阅读全文
摘要:随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单。选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。(比如,I...
阅读全文
摘要:一、NameNode和DataNode(1)NameNode NameNode的作用是管理文件目录结构,是管理数据节点的。NameNode维护两套数据:一套是文件目录与数据块之间的关系,另一套是数据块与节点间的关系。前一套是静态的,是存放在磁盘上的,通过fsimage和edits文件来维护;后一套...
阅读全文
摘要:配置文件hadoop的配置是由两种重要类型的配置文件进行驱动的:默认是只读的配置:core-default.xml, hdfs-default.xml, yarn-default.xml and mapred-default.xml。特殊节点配置:conf/core-site.xml, conf/h...
阅读全文
摘要:除了使用Hive,Pig来执行一个MapReduce任务,不需要专门的把项目打成jar包,提交执行,或者定时执行,因为Hive,Pig这些开源框架已经,帮我们自动打包上传了。而有些时候,我们自己手写了一个MapReduce的任务,然后这个任务里面依赖了其他的第三方包,比如说是Lucene的,或者是S...
阅读全文
摘要:参数 取值 备注fs.default.nameNameNode的URI。hdfs://主机名/dfs.hosts/dfs.hosts.exclude许可/拒绝DataNode列表。如有必要,用这个文件控制许可的datanode列表。d...
阅读全文
摘要:要处理复杂关系的数据,一个工程里面绝对不止一个MapReduce作业,当有多个MapReduce作业时, 并且每个作业之间有依赖关系,所谓的依赖就是一个作业得到的结果是另外一个作业的输入,这个时候我们可 以使用JobControl吊用其中的的addDepending()方法,管理每个M...
阅读全文
摘要:HDFS 常用的文件操作命令hdfs dfs -text /pub/20151019/1/4/gwmvod/mediags.moretv.com.cn/*.bz2 | wc -lhdfsdfs-du-s-h/pub/20151019/1/4/gwmvod/mediags.moretv.com.cn...
阅读全文

浙公网安备 33010602011771号