hadoop - Mapreduce配置:mapreduce.job.split.metainfo.maxsize

我想了解mapreduce.job.split.metainfo.maxsize属性及其作用。描述说:

“分割的元信息文件”包含什么？我已经读过它将存储有关输入拆分的元信息。输入拆分是逻辑上的包装，以创建完整的记录，对吗？拆分后的元信息是否包含可能在多个块中可用的实际记录的块地址？

最佳答案

提交hadoop作业时，将整个输入文件切成“拆分”，并将它们及其元数据存储到每个节点。从那时起，拆分的元数据数量受到限制-属性“mapreduce.jobtracker.split.metainfo.maxsize”确定了此限制，默认值为1000万。您可以通过增加此值来绕过此限制，或者通过将其值设置为-1来解除限制的锁定