Flume

Flume简介

• Apache软件基金顶级项目

• Apache Flume是一个分布式、可信任的弹性系统，用于高效收集、汇聚和移动大规模日志信息从多种不同的数据源到一个集中的数据存储中心（HDFS、 HBase）

• 功能：

　　– 支持在日志系统中定制各类数据发送方，用于收集数据

　　– Flume提供对数据进行简单处理，并写到各种数据接收方（可定制）的能力

• 多种数据源：

　　– Console、RPC、Text、Tail、Syslog、Exec等

Flume特点

• Flume可以高效率的将多个网站服务器中收集的日志信息存入HDFS/HBase中

• 使用Flume，我们可以将从多个服务器中获取的数据迅速的移交给Hadoop中

• 支持各种接入资源数据的类型以及接出数据类型

• 支持多路径流量，多管道接入流量，多管道接出流量，上下文路由等

• 可以被水平扩展

Flume基础

外部架构

数据发生器（如：facebook,twitter）产生的数据被被单个的运行在数据发生器所在服务器上的 agent所收集，之后数据收容器从各个agent上汇集数据并将采集到的数据存入到HDFS或者 HBase中。

事件（Flume Event）

• Flume使用Event对象来作为传递数据的格式，是内部数据传输的最基本单元

• 由两部分组成：转载数据的字节数组+可选头部

• Header 是 key/value 形式的，可以用来制造路由决策或携带其他结构化信息(如事件的时间戳或事件来源的服务器主机名)。你可以把它想象成和 HTTP 头一样提供相同的功能——通过该方法来传输正文之外的额外信息。Flume提供的不同source会给其生成的event添加不同的header

• Body是一个字节数组，包含了实际的内容，

代理（Flume Agent）

• Flume内部有一个或者多个Agent

• 每一个Agent是一个独立的守护进程(JVM)

• 从客户端哪儿接收收集，或者从其他的Agent哪儿接收，然后迅速的将获取的数据传给下一个目的节点Agent

• Agent主要由source、channel、sink三个组件组成。

Agent Source

• 一个Flume源

• 负责一个外部源（数据发生器），如一个web服务器传递给他的事件

• 该外部源将它的事件以Flume可以识别的格式发送到Flume中

• 当一个Flume源接收到一个事件时，其将通过一个或者多个通道存储该事件

Agent Channel

• 通道：采用被动存储的形式，即通道会缓存该事件直到该事件被sink组件处理

• 所以Channel是一种短暂的存储容器，它将从source处接收到的event格式的数据缓存起来,直到它们被sinks消费掉,它在source和sink间起着一共桥梁的作用,channel是一个完整的事务,这一点保证了数据在收发的时候的一致性. 并且它可以和任意数量的source 和sink链接
• 可以通过参数设置event的最大个数

• Flume通常选择FileChannel，而不使用Memory Channel

　　– Memory Channel：内存存储事务，吞吐率极高，但存在丢数据风险

　　– File Channel：本地磁盘的事务实现模式，保证数据不会丢失（WAL实现）

Agent Sink

• Sink会将事件从Channel中移除，并将事件放置到外部数据介质上

　　– 例如：通过Flume HDFS Sink将数据放置到HDFS中，或者放置到下一个Flume的Source，等到下一个Flume处理。

　　– 对于缓存在通道中的事件，Source和Sink采用异步处理的方式

• Sink成功取出Event后，将Event从Channel中移除

• Sink必须作用于一个确切的Channel

• 不同类型的Sink：

　　– 存储Event到最终目的的终端：HDFS、Hbase

　　– 自动消耗：Null Sink

　　– 用于Agent之间通信：Avro

Agent Interceptor

• Interceptor用于Source的一组拦截器，按照预设的顺序必要地方对events进行过滤和自定义的处理逻辑实现

• 在app(应用程序日志)和 source 之间的，对app日志进行拦截处理的。也即在日志进入到 source之前，对日志进行一些包装、清新过滤等等动作

• 官方上提供的已有的拦截器有：

　　– Timestamp Interceptor：在event的header中添加一个key叫：timestamp,value为当前的时间戳

　　– Host Interceptor：在event的header中添加一个key叫：host,value为当前机器的hostname或者ip

　　– Static Interceptor：可以在event的header中添加自定义的key和value

　　– Regex Filtering Interceptor：通过正则来清洗或包含匹配的events

　　– Regex Extractor Interceptor：通过正则表达式来在header中添加指定的key,value则为正则匹配的部分

• flume的拦截器也是chain形式的，可以对一个source指定多个拦截器，按先后顺序依次处理

Agent Selector

• channel selectors 有两种类型:

　　– Replicating Channel Selector (default)：将source过来的events发往所有channel

　　– Multiplexing Channel Selector：而Multiplexing 可以选择该发往哪些channel

• 对于有选择性选择数据源，明显需要使用Multiplexing 这种分发方式
• 问题：Multiplexing 需要判断header里指定key的值来决定分发到某个具体的channel，如果demo和demo2同时运行在同一个服务器上，如果在不同的服务器上运行，我们可以在 source1上加上一个 host 拦截器，这样可以通过header 中的host来判断event该分发给哪个channel，而这里是在同一个服务器上，由host是区分不出来日志的来源的，我们必须想办法在header中添加一个key来区分日志的来源

　　– 通过设置上游不同的Source就可以解决

可靠性

日志采集系统示例

参考资料

八斗大数据

posted @ 2019-11-07 21:50 AI_Engineer 阅读(242) 评论(0) 收藏举报

刷新页面返回顶部

xd_xumaomao