我有10个映射器的sqoop stmt。整个数据将分为10个部分,每个部分超过1GB。我想将数据分成多个较小的文件,不用说超过10个,每个文件大约50个200MB。但是由于数据库瓶颈问题,我无法在一个sqoop中创建超过10个映射器。让我知道是否有任何简单的解决方案。

最佳答案

在直接模式下有解决方案。

您可以使用--direct-split-size(以字节为单位)

示例:--direct-split-size 200000000会生成大约文件。 200 MB。

检查here以获得更多详细信息。

关于hadoop - 缩小到更多小尺寸零件,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42705353/

10-12 23:03