我正在尝试详细了解MapReduce
,尤其是以下查询。
众所周知,HDFS中的数据分为多个块,Mapper通常一次处理一个块。我们可能会遇到record
溢出到另一个块的情况;例如:
数据集:“您好,您现在好吗?”;该数据可能会泄漏到两个不同的块中。
区块1:
hello, how a
区块2:
re
you doing
现在,如果Mapper在Block1上工作,则mapper如何从已溢出到Block2的block1中获取“完整”记录?
有人可以帮我理解吗?
最佳答案
它适用于文件,这些文件可以作为多个块存储在HDFS上。但是,只要映射器同意其在文件上的工作,并且块与块在何处无关紧要,它将仅看到文件及其完整内容。
关于hadoop - Hadoop映射器如何处理部分溢出到下一个块的记录?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/46322476/