我想基于Hortonworks构建一个大数据环境,但是我对所有出色的工具并不熟悉。许多工具非常相似,但细节在于细节。也许您可以帮助我验证我的想法,以便从坚实的基础开始。

我想将以下数据资源连接到hadoop:
-Twitter流
-聊天
-木板
-...

使用REST API,我想在每个流或所有流中搜索单个单词。还应该选择搜索整个数据集或仅在过去24小时内搜索。方法(UseCase)可以是:

  • findwordintwitter
  • findwordinchat
  • ...
  • findwordintwitter24h
  • findwordinchat24h
  • ...
  • findwordinallstreams
  • findwordinallstreams24h

  • 这个想法是使用Flume,hbase和KNOX。只是这么简单吗? Flume会将数据放入hbase中,我可以通过REST获取信息。 KNOX将保护入站和出站连接。但我认为,我非常想念,而且没有我提到的那么简单。

    也许每个UseCase需要一个像Kafka这样的管道,或者每个流需要一个hbase实例。我对大量工具感到震惊,希望有人能给我提示我需要哪些工具。简要介绍一下体系结构概述会很棒,因此我可以从中获得一些线索。

    谢谢,n3

    最佳答案

    @ n3-对于某人来说,这是一个很难回答的难题。我认为您所描述的肯定是完成您所想的一种方法。我可以告诉您,Knox API网关无疑是从集群外部访问HTTP资源的好方法。

    您可能还需要考虑:

  • Nifi-用于接收Twitter流等
  • Storm-用于通过管道
  • 进行类似的摄取
  • kafka-用于获取流
  • 的可伸缩性
  • solr / solrcloud-用于搜索功能
  • 10-08 18:55