我正在使用TDCH将配置单元数据导出到teradata表中。为此,我需要指定我的TDCH作业的映射器数量。因此,我的问题是“我们提供给TDCH作业的映射器选项数量仅仅是对TDCH的提示?还是TDCH创建的映射器总数将始终等于该选项(TDCH中给定的映射器数量)?工作)”?
我的假设是,映射器的数量主要取决于拆分大小,而不是给定映射器的数量(在TDCH作业的选项中)。我的假设对TDCH工作是否正确?
另外,对于Hive表,拆分大小是如何定义的?是根据行数定义的?还是只是根据类似于“文本文件”的情况下的数据大小(例如60MB或120MB等)来定义?
最佳答案
TDCH中的splitsize始终等于指定的“映射器数”(我在TDCH教程之一中阅读了此内容)。因此,映射器的数量不仅仅是一个提示(与传统的mapreduce编程不同),它只是分割的数量。
因为它等于分割数,所以为TDCH作业生成的映射器总数始终等于运行该作业时指定的“映射器数目”(选项)。