我正在尝试详细了解MapReduce,尤其是以下查询。

众所周知,HDFS中的数据分为多个块,Mapper通常一次处理一个块。我们可能会遇到record溢出到另一个块的情况;例如:

数据集:“您好,您现在好吗?”;该数据可能会泄漏到两个不同的块中。

区块1:

hello, how a

区块2:
re
you doing

现在,如果Mapper在Block1上工作,则mapper如何从已溢出到Block2的block1中获取“完整”记录?

有人可以帮我理解吗?

最佳答案

它适用于文件,这些文件可以作为多个块存储在HDFS上。但是,只要映射器同意其在文件上的工作,并且块与块在何处无关紧要,它将仅看到文件及其完整内容。

关于hadoop - Hadoop映射器如何处理部分溢出到下一个块的记录?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/46322476/

10-12 23:46