文章发自http://www.cnblogs.com/hark0623/p/4205756.html 转载请注明
flume越用越有一些疑惑,这个月中按计划是要阅读flume源码的,我希望能解决我的疑惑,另外,当疑惑解决后,我也会把过程和结论发到博客中,最终会把链接更新至当前帖子中的,疑惑如下:
1、通过阅读官网,发现如何请求json获取flume的监控信息,但对于监控信息我不太理解,需要阅读源码来搞清楚。
2、我的spark streaming监控了每次从flume推送来的数据量的大小,发现总是300 400 500 。。1000 这样的整数数量, 但我将avro和batchsize从默认的100修改在敢101,但后边我查看sparkstreaming,发现数量还是整数的。 这个感觉很奇怪,需要搞明白。
3、对于负载均衡是如何实现的?
4、对于channel如何实现的? 如何根据阈值进行memory与file的自动切换(仿美团)
5、avro类型的source是如何实现的
6、flume中如何设置source可以接收到http post过来的数据
7、flume中channel中的capacity,transactionCapacity参数的意义
8、其实常用的source,channel,sinks的含义光从文档看感觉很模糊,所以都希望通过源代码来确定
大概是这样,希望这个月能搞明白。