我想了解mapreduce.job.split.metainfo.maxsize
属性及其作用。描述说:
“分割的元信息文件”包含什么?我已经读过它将存储有关输入拆分的元信息。输入拆分是逻辑上的包装,以创建完整的记录,对吗?拆分后的元信息是否包含可能在多个块中可用的实际记录的块地址?
最佳答案
提交hadoop作业时,将整个输入文件切成“拆分”,并将它们及其元数据存储到每个节点。从那时起,拆分的元数据数量受到限制-属性“mapreduce.jobtracker.split.metainfo.maxsize”确定了此限制,默认值为1000万。您可以通过增加此值来绕过此限制,或者通过将其值设置为-1来解除限制的锁定