hadoop - 我的hadoop体系结构的改进建议

我想基于Hortonworks构建一个大数据环境，但是我对所有出色的工具并不熟悉。许多工具非常相似，但细节在于细节。也许您可以帮助我验证我的想法，以便从坚实的基础开始。

我想将以下数据资源连接到hadoop:
-Twitter流
-聊天
-木板
-...

使用REST API，我想在每个流或所有流中搜索单个单词。还应该选择搜索整个数据集或仅在过去24小时内搜索。方法(UseCase)可以是:

findwordintwitter

findwordinchat

...

findwordintwitter24h

findwordinchat24h

...

findwordinallstreams

findwordinallstreams24h

这个想法是使用Flume，hbase和KNOX。只是这么简单吗？ Flume会将数据放入hbase中，我可以通过REST获取信息。 KNOX将保护入站和出站连接。但我认为，我非常想念，而且没有我提到的那么简单。

也许每个UseCase需要一个像Kafka这样的管道，或者每个流需要一个hbase实例。我对大量工具感到震惊，希望有人能给我提示我需要哪些工具。简要介绍一下体系结构概述会很棒，因此我可以从中获得一些线索。

谢谢，n3

最佳答案

@ n3-对于某人来说，这是一个很难回答的难题。我认为您所描述的肯定是完成您所想的一种方法。我可以告诉您，Knox API网关无疑是从集群外部访问HTTP资源的好方法。

您可能还需要考虑:

Nifi-用于接收Twitter流等

Storm-用于通过管道

进行类似的摄取

kafka-用于获取流

的可伸缩性

solr / solrcloud-用于搜索功能