我构建了一个应用程序,用于使用Hadoop搜索分布式环境中的相似图像存储。但是Hadoop不支持实时处理,这就是为什么响应时间长的原因。我知道Storm是大数据分析应用程序的另一个框架。但是我很困惑我们是否可以使用Storm来实现这种应用程序。
有人建议如何有效使用Storm框架的应用程序。
最佳答案
事件流处理是Storm的主要优势。
通常,Hadoop用于批处理。但是 Storm 是实时处理的Hadoop,而 Spark 是针对所有内存数据存储的分布式处理
看看这个Storm and Spark和Stack Comparison 链接
编辑:
我对这个问题的解决方案
1)将镜像存储在具有跨多个网络的CDN的CMS(内容管理系统)中,而不是 HDFS 或 NoSQL 数据库中)
2)将图像ID,图像名称,MD5SUM,图像位置元信息存储在HBase表中
3)使用Spark&HBase进行图像数据处理,例如通过检查删除重复的图像MD5SUM
关于hadoop - Storm框架应用,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32990710/