BI—Hadoop - 随笔分类 - TonyChai

BI生态圈常用端口使用配置总结

摘要：Hadoop集群的各部分一般都会使用到多个端口，有些是daemon之间进行交互之用，有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多，完全记不住哪个端口对应哪个应用，特收集记录如此，以便查询。这里包含我们使用到的组件：HDFS, YARN, HBase, Hive, ZooKe... 阅读全文

posted @ 2015-06-25 11:11 TonyChai 阅读(646) 评论(0) 推荐(0)

为你的 Hadoop 集群选择合适的硬件

摘要：随着Apache Hadoop的起步，云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。尽管Hadoop被设计为运行在行业标准的硬件上，提出一个理想的集群配置不想提供硬件规格列表那么简单。选择硬件，为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。（比如，I... 阅读全文

posted @ 2015-06-19 11:26 TonyChai 阅读(389) 评论(0) 推荐(0)

hdfs工作原理

摘要：一、NameNode和DataNode（1）NameNode NameNode的作用是管理文件目录结构，是管理数据节点的。NameNode维护两套数据：一套是文件目录与数据块之间的关系，另一套是数据块与节点间的关系。前一套是静态的，是存放在磁盘上的，通过fsimage和edits文件来维护；后一套... 阅读全文

posted @ 2014-12-22 15:22 TonyChai 阅读(1162) 评论(0) 推荐(0)

Hadoop2配置详解

摘要：配置文件hadoop的配置是由两种重要类型的配置文件进行驱动的：默认是只读的配置：core-default.xml, hdfs-default.xml, yarn-default.xml and mapred-default.xml。特殊节点配置：conf/core-site.xml, conf/h... 阅读全文

posted @ 2014-12-20 10:50 TonyChai 阅读(3096) 评论(0) 推荐(0)

如何向hadoop集群定时提交一个jar作业？

摘要：除了使用Hive，Pig来执行一个MapReduce任务，不需要专门的把项目打成jar包，提交执行，或者定时执行，因为Hive，Pig这些开源框架已经，帮我们自动打包上传了。而有些时候，我们自己手写了一个MapReduce的任务，然后这个任务里面依赖了其他的第三方包，比如说是Lucene的，或者是S... 阅读全文

posted @ 2014-11-20 10:37 TonyChai 阅读(859) 评论(0) 推荐(0)

hadoop1常见配置含义

摘要：参数取值备注fs.default.nameNameNode的URI。hdfs://主机名/dfs.hosts/dfs.hosts.exclude许可/拒绝DataNode列表。如有必要，用这个文件控制许可的datanode列表。d... 阅读全文

posted @ 2014-11-20 10:31 TonyChai 阅读(170) 评论(0) 推荐(0)

多个MapReduce作业相互依赖时，使用JobControl进行管理

摘要：要处理复杂关系的数据，一个工程里面绝对不止一个MapReduce作业，当有多个MapReduce作业时，并且每个作业之间有依赖关系，所谓的依赖就是一个作业得到的结果是另外一个作业的输入，这个时候我们可以使用JobControl吊用其中的的addDepending()方法，管理每个M... 阅读全文

posted @ 2014-11-20 10:29 TonyChai 阅读(801) 评论(0) 推荐(0)

HDFS常用命令

摘要：HDFS 常用的文件操作命令hdfs dfs -text /pub/20151019/1/4/gwmvod/mediags.moretv.com.cn/*.bz2 | wc -lhdfsdfs-du-s-h/pub/20151019/1/4/gwmvod/mediags.moretv.com.cn... 阅读全文

posted @ 2014-11-18 10:35 TonyChai 阅读(1525) 评论(0) 推荐(0)

TonyChai

随笔分类 - BI—Hadoop

公告