05 2014 档案
摘要:org.apache.flume.sink.AvroSink是用来通过网络来传输数据的,可以将event发送到RPC服务器(比如AvroSource),使用AvroSink和AvroSource可以组成分层结构。它继承自AbstractRpcSink extends AbstractSinkim...
阅读全文
摘要:在AbstractConfigurationProvider类中loadSources方法会将所有的source进行封装成SourceRunner放到了Map sourceRunnerMap之中。相关代码如下: 1 Map selectorConfig = context.getSu...
阅读全文
摘要:在AbstractConfigurationProvider类中loadSinks方法会调用loadSinkGroups方法将所有的sink和sinkgroup放到了Map sinkRunnerMap之中。 SinkRunner可能对应一个sink也可能对应一个sinkgroup。因为如果配置...
阅读全文
摘要:mapreduce job提交流程源码级分析(三)中已经说明用户最终调用JobTracker.submitJob方法来向JobTracker提交作业。而这个方法的核心提交方法是JobTracker.addJob(JobID jobId, JobInProgress job)方法,这个addJob...
阅读全文
摘要:FileChannel是flume一个非常重要的channel组件,非常常用。这个channel非常复杂,涉及的文件更多涉及三个包:org.apache.flume.channel.file、org.apache.flume.channel.file.encryption(加密)、org.apa...
阅读全文
摘要:一份数据,两种传输方式进行收集。 一份数据:有多台数据采集节点或者多个数据源 两种方式:一种是从依次多个采集节点或者多个数据源将数据拷贝过来,合并为一个文件 另外一种是多个采集节点或者数据源同时向汇总端发送数据,最后合并为一个文件 两种方式的不同:汇总后的数据都是一样的,但是顺...
阅读全文
摘要:mapreduce job提交流程源码级分析(二)(原创)这篇文章说到了jobSubmitClient.submitJob(jobId, submitJobDir.toString(), jobCopy.getCredentials())提交job,最终调用的是JobTracker.submit...
阅读全文
摘要:org.apache.hadoop.mapred.JobTracker类是个独立的进程,有自己的main函数。JobTracker是在网络环境中提交及运行MR任务的核心位置。 main方法主要代码有两句:1 //创建jobTracker对象2 JobTracker t...
阅读全文
摘要:HDFSEventSink是flume中一个很重要的sink,配置文件中type=hdfs。与此sink相关的类都在org.apache.flume.sink.hdfs包中。 HDFSEventSink算是一个比较复杂的sink,包下涉及的源代码文件数多达13个。。。可配置的参数众多。。。希望...
阅读全文
摘要:昨晚上的博客泡汤了。。。擦!! 昨晚明明在22:00多保存草稿了。。。。尼玛早上一来,擦,真的是一夜回到解放前啊!记录到昨天下午4:00了。。。 顿时心血付诸东流哇…… 从头再来的感觉。。。 什么玩意啊…… 让我情何以堪??让你情何以堪??让这个园子里的同僚情何以堪?? 容忍你一...
阅读全文
摘要:关于HBase的sink的所有内容均在org.apache.flume.sink.hbase包下。 每个sink包括自己定制的,都extends AbstractSink implements Configurable。 一、首先是configure(Context context)方法。该...
阅读全文
摘要:强强联手,互联网垂直招聘专家拉勾网携手全球顶尖IT公司ThoughtWorks共同推出此次代码挑战!等你来打擂!题目:FizzBuzzWhizz你是一名体育老师,在某次课距离下课还有五分钟时,你决定搞一个游戏。此时有100名学生在上课。游戏的规则是:1. 你首先说出三个不同的特殊数,要求必须是个位数...
阅读全文

浙公网安备 33010602011771号