摘要: 博客园的编辑器真的很难用,还是去CSDN吧 阅读全文
posted @ 2016-05-28 11:18 傾聽雨落 阅读(103) 评论(0) 推荐(0) 编辑
摘要: Yarn通过两个 守护线程提供核心服务:ResourceManager,管理集群所有资源的切分以及作业的调度与监控;NodeManager,运行在集群所有节点上,启动并监控容器的运行状况,并负责向ResourceManager汇报。 在linux上,hadoop是通过cgroup技术实现contai 阅读全文
posted @ 2016-05-28 11:14 傾聽雨落 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 本文知识 由 hadoop权威指南第四版获得,图片也来自与此 Read Data client通过调用 FileSystem对象的open()方法来打开文件。在HDFS中,FileSystem是DistributedFileSystem的一个实例。DistributedFileSystem是通过RP 阅读全文
posted @ 2016-05-26 20:02 傾聽雨落 阅读(606) 评论(0) 推荐(0) 编辑
摘要: hadoop RM 源码中关于ResourceManager的注释只有寥寥几句。大概意思就是管理集群所有的资源。 仔细看了下ResourceManager的方法列表,瞅到一mian()方法。 这里有一关键点,ResourceManager在启动时,首先调用父类init()方法,然后调用start() 阅读全文
posted @ 2016-05-25 22:46 傾聽雨落 阅读(393) 评论(0) 推荐(0) 编辑
摘要: 举一个例子:使用mapreduce统计一个月或者两个的日志文件,这里可能有大量的日志文件。如何快速的提取文件路径? 在HDFS中,可以使用通配符来解决这个问题。与linux shell的通配符相同。 例如: | Tables | Are | | |: :| | 2016/ | 2016/05 201 阅读全文
posted @ 2016-05-25 16:39 傾聽雨落 阅读(413) 评论(0) 推荐(0) 编辑
摘要: 读取文件 seek 读取 写文件 列出文件列表 删除文件 源码 如果删除文件夹需要 设置为true,如果未flase会抛出异常。 阅读全文
posted @ 2016-05-25 15:45 傾聽雨落 阅读(244) 评论(0) 推荐(1) 编辑
摘要: hadoop source job 类 JobSubmitter.submitJobInternal() The job submission process involves: 1. Checking the input and output specifications of the job. 阅读全文
posted @ 2016-05-24 23:25 傾聽雨落 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 许多mapreduce作业会受限与集群的带宽,因此尽量降低map和reduce任务之间的数据传输是有必要的。Hadoop允许用户针对map任务的输出指定一个combiner函数处理map任务的输出,并作为reduce函数的输入。因为combine是优化方案,所以Hadoop无法确定针对map输出记录 阅读全文
posted @ 2016-05-24 19:55 傾聽雨落 阅读(662) 评论(0) 推荐(0) 编辑
摘要: 注:随笔 取自于 hadoop权威指南第四版 Hadoop 会讲MapReduce输入的数据切分成大小相等的数据块(fixed size 固定大小,我认为翻译成相等大小比较合适),或者称之为分片。Hadoop会未每一个分片创建一个map 任务,并由该任务来运行用户自定义的map函数。 一个输入数据可 阅读全文
posted @ 2016-05-24 18:42 傾聽雨落 阅读(415) 评论(0) 推荐(0) 编辑
摘要: 解释下 第一篇 程序的意思 Job ’s setJarByClass() 便于hadoop查找并加载相关的jar包文件 FileInputFormat.addInputPath() 设置输入路径,可以是一个文件,也可以是一个文件夹,而且可以被调用多次,用以加载不同的输入路径。 FileOutputF 阅读全文
posted @ 2016-05-23 19:52 傾聽雨落 阅读(710) 评论(0) 推荐(0) 编辑