随笔分类 -  hadoop

摘要:Yarn通过两个 守护线程提供核心服务:ResourceManager,管理集群所有资源的切分以及作业的调度与监控;NodeManager,运行在集群所有节点上,启动并监控容器的运行状况,并负责向ResourceManager汇报。 在linux上,hadoop是通过cgroup技术实现contai 阅读全文
posted @ 2016-05-28 11:14 傾聽雨落 阅读(210) 评论(0) 推荐(0)
摘要:本文知识 由 hadoop权威指南第四版获得,图片也来自与此 Read Data client通过调用 FileSystem对象的open()方法来打开文件。在HDFS中,FileSystem是DistributedFileSystem的一个实例。DistributedFileSystem是通过RP 阅读全文
posted @ 2016-05-26 20:02 傾聽雨落 阅读(618) 评论(0) 推荐(0)
摘要:hadoop RM 源码中关于ResourceManager的注释只有寥寥几句。大概意思就是管理集群所有的资源。 仔细看了下ResourceManager的方法列表,瞅到一mian()方法。 这里有一关键点,ResourceManager在启动时,首先调用父类init()方法,然后调用start() 阅读全文
posted @ 2016-05-25 22:46 傾聽雨落 阅读(413) 评论(0) 推荐(0)
摘要:举一个例子:使用mapreduce统计一个月或者两个的日志文件,这里可能有大量的日志文件。如何快速的提取文件路径? 在HDFS中,可以使用通配符来解决这个问题。与linux shell的通配符相同。 例如: | Tables | Are | | |: :| | 2016/ | 2016/05 201 阅读全文
posted @ 2016-05-25 16:39 傾聽雨落 阅读(460) 评论(0) 推荐(0)
摘要:读取文件 seek 读取 写文件 列出文件列表 删除文件 源码 如果删除文件夹需要 设置为true,如果未flase会抛出异常。 阅读全文
posted @ 2016-05-25 15:45 傾聽雨落 阅读(255) 评论(0) 推荐(1)
摘要:hadoop source job 类 JobSubmitter.submitJobInternal() The job submission process involves: 1. Checking the input and output specifications of the job. 阅读全文
posted @ 2016-05-24 23:25 傾聽雨落
摘要:许多mapreduce作业会受限与集群的带宽,因此尽量降低map和reduce任务之间的数据传输是有必要的。Hadoop允许用户针对map任务的输出指定一个combiner函数处理map任务的输出,并作为reduce函数的输入。因为combine是优化方案,所以Hadoop无法确定针对map输出记录 阅读全文
posted @ 2016-05-24 19:55 傾聽雨落 阅读(680) 评论(0) 推荐(0)
摘要:注:随笔 取自于 hadoop权威指南第四版 Hadoop 会讲MapReduce输入的数据切分成大小相等的数据块(fixed size 固定大小,我认为翻译成相等大小比较合适),或者称之为分片。Hadoop会未每一个分片创建一个map 任务,并由该任务来运行用户自定义的map函数。 一个输入数据可 阅读全文
posted @ 2016-05-24 18:42 傾聽雨落 阅读(460) 评论(0) 推荐(0)
摘要:解释下 第一篇 程序的意思 Job ’s setJarByClass() 便于hadoop查找并加载相关的jar包文件 FileInputFormat.addInputPath() 设置输入路径,可以是一个文件,也可以是一个文件夹,而且可以被调用多次,用以加载不同的输入路径。 FileOutputF 阅读全文
posted @ 2016-05-23 19:52 傾聽雨落 阅读(728) 评论(0) 推荐(0)
摘要:环境: jdk: 1.8 hadoop: 2.6.4 mapper: reducer: job: 阅读全文
posted @ 2016-05-23 19:11 傾聽雨落 阅读(592) 评论(0) 推荐(0)
摘要:Sqoop 使用笔记 安装 略 导入HDFS 导入命令 如果数据库table没有主键,会有error打印,如下: 如错误说提示,这时需要添加参数 split by,命令如下: 如果不想每次输入用户名和密码,可以如此做 导入命令可以如此写: 条件导入 Sqoop 的宏$CONDITIONS必须放在wh 阅读全文
posted @ 2016-03-18 17:29 傾聽雨落 阅读(1707) 评论(0) 推荐(0)
摘要:slurper 可以将任何格式的数据导入HDFS, 这里有github地址 这里鄙视下百度,居然搜索不到! 第一步,下载安装 git clone git@github.com:alexholmes/hdfs-file-slurper.git cd hdfs-file-slurper mvn pack 阅读全文
posted @ 2016-02-17 11:30 傾聽雨落 阅读(425) 评论(0) 推荐(0)
摘要:了解过flume的人,差不多都看过这张或则类似的图片,本文即实现上图部分内容。(由于条件有限,目前是单机上实现) flume-agent配置文件 #flume agent conf source_agent.sources = server source_agent.sinks = avroSink 阅读全文
posted @ 2016-02-03 17:46 傾聽雨落 阅读(2269) 评论(0) 推荐(0)
摘要:hadoop版本:2.7.1 jdk:1.7 OS:ubuntu 14.041、开启ssh免密码登录ssh-keygen -t rsacat id_rsa.pub >> authorized_keys这里不多做赘述,没有开启的请 google、baidu(搭建java环境也同样)2、修改core-s... 阅读全文
posted @ 2015-08-05 16:15 傾聽雨落 阅读(376) 评论(0) 推荐(0)