我构建了一个应用程序,用于使用Hadoop搜索分布式环境中的相似图像存储。但是Hadoop不支持实时处理,这就是为什么响应时间长的原因。我知道Storm是大数据分析应用程序的另一个框架。但是我很困惑我们是否可以使用Storm来实现这种应用程序。

有人建议如何有效使用Storm框架的应用程序。

最佳答案



事件流处理是Storm的主要优势。

通常,Hadoop用于批处理。但是 Storm 是实时处理的Hadoop,而 Spark 是针对所有内存数据存储的分布式处理

看看这个Storm and SparkStack Comparison 链接

hadoop - Storm框架应用-LMLPHP

编辑:

我对这个问题的解决方案

1)将镜像存储在具有跨多个网络的CDN的CMS(内容管理系统)中,而不是 HDFS NoSQL 数据库中)

2)将图像ID,图像名称,MD5SUM,图像位置元信息存储在HBase表中

3)使用Spark&HBase进行图像数据处理,例如通过检查删除重复的图像MD5SUM

关于hadoop - Storm框架应用,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32990710/

10-14 00:22