1、什么是Flume:apache顶级项目,主要用来做数据采集。分布式、高可用,将海量日志进行采集、聚合、传输的系统。能够对数据进行简单处理在发送到接收方。
2、Flume组件:source、channel、sink,一个Flume可以有一个source,多个channel、多个sink
(1)source:数据收集组件,将日志从不同的client中收集过来。
(2)channel:数据缓冲区。临时存储从source传过来的Event。
(3)sink:将event从channel中读取出来并移除,传输至数据接收方,或者连接下一个agent的线管中。
source、channel、sink共同组成了一个agent,一个agent就是一个JVM,一个angent运行在一台服务器上。
event是一个数据单元,由消息头和消息体组成,可以是日志记录、avro对象。
3、source常见的源:spooling directory、exec、syslog、JMS Source、Avro Source
三种可监控文件或目录的source:
spooling directory source:监控一个目录,并同步目录下的新文件到sink,被同步完的文件可被立即删除或打上标记。适用于同步新文件,不适用于实时追加日志的文件进行监听和同步。可改进解决。
exec source:可以通过tail -f 命令tail住一个文件,然后将日志文件追加的内容实时同步到sink中。但是存在的问题就是agent挂了,再次重启,会有数据重复读取的问题。可通过添加uuid来解决,或改进。
taildir source:可以实时监控一批文件,并记录每个文件最新消费的位置。agent重启后不会有重复消费的问题。
JMS Source:java 消息中间件。
Avro Source:数据序列化系统。
补充:这里的source组件可以自定义:例如项目需要监控mysql中的数据,实时的从mysql中拉取数据,这时我们可以自己实现MysqlSource。参考官方文档,需要继承AbstractSource并实现其中的方法。
4、双层Flume:双层Flume主要用来做 负载均衡、容灾
第一层Flume做数据采集,第二层Flume做数据聚合和sink。两层之间采用sinkGroup实现负载均衡。
第一层某个代理失败,那么可以考虑由第一层的其他节点来接管故障节点。如果是第二层代理停止运行,则为了防止数据丢失,只能让每一个第一层代理具有多个冗余的Avro sink,然后把这些sink安排到同一个sink组中,如果第二层代理中的某个代理出现问题,则该事件会被传递给该层sink组的其他代理来完成,以此来实现故障转移和负载均衡。
Flume多层代理防止数据丢失:
https://blog.csdn.net/qq_26442553/article/details/79042603