由于不允许在产品服务器上设置Flume,因此我必须下载日志,将其放入Flume spoolDir中,并有一个接收器可从通道使用并写入Cassandra。一切正常。

但是,由于spoolDir中有很多日志文件,并且当前设置一次仅处理1个文件,因此需要一段时间。我希望能够同时处理许多文件。我想到的一种方法是使用spoolDir,但将文件分发到5-10个不同的目录中,并定义多个源/通道/接收器,但这有点笨拙。有没有更好的方法来实现这一目标?

谢谢

最佳答案

仅作记录,已在Flume的邮件列表中回答:

Hari Shreedharan写道:

很不幸的是,不行。 spoolDir源代码保持单线程,因此反序列化器的实现可以保持简单。使用多个spoolDir源的方法是正确的,尽管它们都可以写入相同的通道-因此,您只需要大量的源,它们都可以共享相同的通道,而您不需要除非您想更快地提取数据,否则不需要更多的接收器。

http://mail-archives.apache.org/mod_mbox/flume-user/201409.mbox/browser

10-08 12:41