关于flume中的几个疑惑

文章发自http://www.cnblogs.com/hark0623/p/4205756.html  转载请注明

 

flume越用越有一些疑惑,这个月中按计划是要阅读flume源码的,我希望能解决我的疑惑,另外,当疑惑解决后,我也会把过程和结论发到博客中,最终会把链接更新至当前帖子中的,疑惑如下:

1、通过阅读官网,发现如何请求json获取flume的监控信息,但对于监控信息我不太理解,需要阅读源码来搞清楚。

2、我的spark streaming监控了每次从flume推送来的数据量的大小,发现总是300 400 500 。。1000 这样的整数数量, 但我将avro和batchsize从默认的100修改在敢101,但后边我查看sparkstreaming,发现数量还是整数的。 这个感觉很奇怪,需要搞明白。

3、对于负载均衡是如何实现的?

4、对于channel如何实现的? 如何根据阈值进行memory与file的自动切换(仿美团)

5、avro类型的source是如何实现的

6、flume中如何设置source可以接收到http post过来的数据

7、flume中channel中的capacity,transactionCapacity参数的意义

8、其实常用的source,channel,sinks的含义光从文档看感觉很模糊,所以都希望通过源代码来确定

 

大概是这样,希望这个月能搞明白。

posted @ 2015-01-06 12:16  HarkLee  阅读(543)  评论(0编辑  收藏  举报