随笔分类 -  flume

摘要:一、概述: 在实际的生产环境中,一般都会遇到将web服务器比如tomcat、Apache等中产生的日志倒入到HDFS中供分析使用的需求。这里的配置方式就是实现上述需求。 二、配置文件: #agent1 name agent1.sources=source1 agent1.sinks=sink1 agent1.channels=channel1 #Spooling Directory... 阅读全文
posted @ 2016-01-24 11:46 于辰 阅读(1067) 评论(0) 推荐(0)
摘要:一、概述: 本节首先提供一个基于netcat的source+channel(memory)+sink(logger)的数据传输过程。然后剖析一下NetcatSource中的代码执行逻辑。 二、flume配置文件: 下面的配置文件netcat.conf中定义了source使用netcat,它会监听44444端口。 # Name the components on this agent ... 阅读全文
posted @ 2016-01-22 21:54 于辰 阅读(5859) 评论(0) 推荐(1)
摘要:上一节搭建了flume的简单运行环境,并提供了一个基于netcat的演示。这一节继续对flume的整个流程进行进一步的说明。 一、flume的基本架构图: 下面这个图基本说明了flume的作用,以及flume中的基本组件:source、channel、sink。 Source:完成对日志数据的收集,分成transtion 和 event 打入到channel之中。 Channel:主要提... 阅读全文
posted @ 2016-01-22 17:42 于辰 阅读(861) 评论(0) 推荐(0)
摘要:一、概述: Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 当前Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构,与Flume-og有很大不同,使用时请注意区分。 先来看几张数据流图: 从上面的图大致可以知道,flume就是将sou... 阅读全文
posted @ 2016-01-20 20:02 于辰 阅读(546) 评论(0) 推荐(0)