我开始学习Map Reduce,但无法解决它是否可以解决我要解决的问题。

根据我的阅读,您首先需要处理大量数据,然后进行映射并减少从这些数据中获取结果的步骤。

我要解决的问题分为两个阶段:
1.产生
2.修剪

基本上,当我运行该程序时,我从头开始,还没有数据,但是generate阶段将数据片段写入文件中。修剪阶段会删除一些对称的数据或包含在另一数据中的数据。但这与我的问题无关。

与此相关的是,我从从头开始,具有0字节的数据,并且随着程序运行(它将运行大约一周),将生成大量数据(GB或TB的数据)。我可以在这种类型的问题中使用MapReduce方法吗?对于最初不存在的数据或非常小的数据,但是当程序运行时,数据是否会更新且大小很大?

最佳答案

好吧,为什么你不能呢?

从技术上讲,如果您具有reduce,则说明已完成,因此可以在mapreduce群集中运行任何内容。

哦,您可能想要量化“巨大”。

关于hadoop - Map Reduce沿途生成的数据,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41171751/

10-16 01:23
查看更多