随笔分类 - hadoop
好友推荐的mr实现思路
摘要:数据模型: 通过模型,得到好友关系: 1 2,3,4,5 2 1,3,4 3 1,2 4 1,2,5,6 5 1,4,6 6 4,5,7 7 6 实现好友推荐的思路: 1、罗列对象的直接好友关系,及对象好友之间的关系.即两两关系 1 2,3,4,5 > ((1,2),0)((1,3),0)((1,4
阅读全文
mapreduce任务中client生成split的源码过程
摘要:1、提交任务 //提交任务直到返回结果job.waitForCompletion(true); 2、点击waitForCompletion方法到Job.java类 3、跟进到submit方法,调用方法: return submitter.submitJobInternal(Job.this, clu
阅读全文
MapReduce任务运行过程
摘要:MR on YARN任务启动过程: 1、MR client 与NN通信,生成split信息,然后将split信息、jar包、运行配置信息上传到hdfs. 2、MR client向RM申请AppMaster。 3、RM分配到NM,NM启动AM。 4、AM向RM申请资源。 5、RM分配资源,对应的NM启
阅读全文
HDFS 读写流程
摘要:HDFS写流程: 1、Client和NN连接,创建文件元数据。 2、NN判定元数据是否有效,如是否已经存在等。 3、NN触发副本放置策略,返回一个有序的DN列表。 4、Client和DN、DN与DN之间(以及根据副本策略)建立pipeline连接 5、Client将数据块切分成64K的packet,
阅读全文
Yarn架构详解
摘要:Yarn架构介绍Yarn/MRv2最基本的想法是将原JobTracker主要的资源管理和job调度/监视功能分开作为两个单独的守护进程。有一个全局的ResourceManager(RM)和每个Application有一个ApplicationMaster(AM),Application相当于map-
阅读全文
浙公网安备 33010602011771号