我想高效地搜索大量日志(大小大约1 TB,放置在多台计算机上)。

为此,我想构建一个由Flume,Hadoop和Solr组成的基础架构。 Flume将从几台计算机上获取日志,并将它们放入HDFS。

现在,我希望能够使用map reduce作业索引这些日志,以便能够使用Solr搜索它们。我发现MapReduceIndexerTool为我完成了此操作,但是我发现它需要 morphline

我知道一般来说,吗啉会对其所需的数据执行一组操作,但是如果我想使用MapReduceIndexerTool,应该执行哪种操作?

我找不到适用于此贴图缩小作业的顶点线的任何示例。

谢谢你。

最佳答案

Cloudera有一个guide,它具有与morphline下给出的几乎相似的用例。

hadoop - MapReduceIndexerTool的轮廓线应该看起来如何?-LMLPHP



该示例中给出的用例是MapReduceIndexerToolApache Flume Morphline Solr SinkApache Flume MorphlineInterceptor和Morphline Lily HBase Indexer等生产工具正在作为其操作的一部分运行,如下图所示:

hadoop - MapReduceIndexerTool的轮廓线应该看起来如何?-LMLPHP

09-12 11:25