随笔分类 -  Hadoop

摘要:YARN:Yet Another Resource Negotiator, Hadoop集群的资源管理器,可以对运行在Hadoop上的MapReduce V2,Spark,Impala等进行内存和CPU的分配。 MapReduce过程分析 input split(输入分片)阶段:在进行Map之前,会 阅读全文
posted @ 2016-10-04 16:56 软件心理学工程师 阅读(258) 评论(0) 推荐(0)
摘要:Linux Control Groups(cgroups):在操作系统级别进行资源分配,可通过Cloudera Static Service Pools配置。 YARN调度器配置:对运行在YARN上的应用进行资源配置,比如M/R,implala。可通过Cloudera 动态资源池进行配置。 以下资源 阅读全文
posted @ 2016-10-03 12:26 软件心理学工程师
摘要:保证Hadoop安全的最有效方法是对cluster进行隔离(isolation,常用方法是把大集群划分若干个小集群)。 Hadoop安全措施的目的是防止好的人不小心做了坏的事,而非防止坏人坏事。 Kerberos: Hadoop采用Kerberos对所有的RPCs进行用户验证。Kerberos并不是 阅读全文
posted @ 2016-10-01 21:59 软件心理学工程师 阅读(170) 评论(0) 推荐(0)
摘要:HDFS-NameNode Tuning: dfs.namenode.handler.count: NameNode可开启的thread number,thread为从NameNode到DataNode的RPC请求。Default值为30(CM,Non CM is 10)。推荐设置为集群node数量 阅读全文
posted @ 2016-09-29 22:53 软件心理学工程师 阅读(625) 评论(0) 推荐(0)
摘要:涉及到一些关于硬件的东西,我也不是很懂,记录下来有待以后学习。 Hadoop集群一般都是由小到大,刚开始可能只有4到6个节点,随着存储数据的增加,计算量的增大,内存需求的增加,集群慢慢变大。 比如按照数据存储量增大集群,每个星期数据存储3TB数据,HDFS的block备份数为3,则集群就需要9TB的 阅读全文
posted @ 2016-09-29 21:46 软件心理学工程师 阅读(437) 评论(0) 推荐(0)
摘要:Services:Haddoop cluster上可以部署的组件,比如HDFS,YARN,HBase等。 Roles:在service配置时,由Cloudera Manager创建。比如NameNode是HDFS service的一个role。 Role Group:对Role的管理,可以将相同类别 阅读全文
posted @ 2016-09-29 21:07 软件心理学工程师 阅读(385) 评论(0) 推荐(0)
摘要:存入HDFS的文件会按块(block)划分,默认每块128MB。默认1个block还有2个备份。备份增加了数据的可靠性和提高计算效率(数据本地化)。 HDFS部署可选择不支持HA,也可选择支持HA。 NameNode内存中有metadata,metadata里主要记录的信息包括:file locat 阅读全文
posted @ 2016-09-28 08:43 软件心理学工程师 阅读(453) 评论(0) 推荐(0)
摘要:cloudera分为两个部分:CDH和CM。CDH是Cloudera Distribution Hadoop的简称,顾名思义,就是cloudera公司发布的Hadoop版本,封装了Apache Hadoop,提供Hadoop所有的服务,包括HDFS,YARN,MapReduce以及各种相关的comp 阅读全文
posted @ 2016-09-27 23:48 软件心理学工程师 阅读(1202) 评论(0) 推荐(0)
摘要:摸索了将近一个月的hadoop , 在centos上配了一个伪分布式的环境,又折腾了一把hadoop eclipse plugin,最后终于实现了在windows上编写MapReduce程序,在centos上可以执行。关于环境的配置,网上很多,不再废话。仅以此系列的博客记录学习过程中的点点滴滴。##... 阅读全文
posted @ 2014-12-17 23:25 软件心理学工程师 阅读(262) 评论(0) 推荐(0)