我想高效地搜索大量日志(大小大约1 TB,放置在多台计算机上)。
为此,我想构建一个由Flume,Hadoop和Solr组成的基础架构。 Flume将从几台计算机上获取日志,并将它们放入HDFS。
现在,我希望能够使用map reduce作业索引这些日志,以便能够使用Solr搜索它们。我发现MapReduceIndexerTool为我完成了此操作,但是我发现它需要 morphline 。
我知道一般来说,吗啉会对其所需的数据执行一组操作,但是如果我想使用MapReduceIndexerTool,应该执行哪种操作?
我找不到适用于此贴图缩小作业的顶点线的任何示例。
谢谢你。
最佳答案
Cloudera有一个guide,它具有与morphline
下给出的几乎相似的用例。
该示例中给出的用例是MapReduceIndexerTool
,Apache Flume Morphline Solr Sink
和Apache Flume MorphlineInterceptor
和Morphline Lily HBase Indexer等生产工具正在作为其操作的一部分运行,如下图所示: