我想基于Hortonworks构建一个大数据环境,但是我对所有出色的工具并不熟悉。许多工具非常相似,但细节在于细节。也许您可以帮助我验证我的想法,以便从坚实的基础开始。
我想将以下数据资源连接到hadoop:
-Twitter流
-聊天
-木板
-...
使用REST API,我想在每个流或所有流中搜索单个单词。还应该选择搜索整个数据集或仅在过去24小时内搜索。方法(UseCase)可以是:
这个想法是使用Flume,hbase和KNOX。只是这么简单吗? Flume会将数据放入hbase中,我可以通过REST获取信息。 KNOX将保护入站和出站连接。但我认为,我非常想念,而且没有我提到的那么简单。
也许每个UseCase需要一个像Kafka这样的管道,或者每个流需要一个hbase实例。我对大量工具感到震惊,希望有人能给我提示我需要哪些工具。简要介绍一下体系结构概述会很棒,因此我可以从中获得一些线索。
谢谢,n3
最佳答案
@ n3-对于某人来说,这是一个很难回答的难题。我认为您所描述的肯定是完成您所想的一种方法。我可以告诉您,Knox API网关无疑是从集群外部访问HTTP资源的好方法。
您可能还需要考虑: