我有10个映射器的sqoop stmt。整个数据将分为10个部分,每个部分超过1GB。我想将数据分成多个较小的文件,不用说超过10个,每个文件大约50个200MB。但是由于数据库瓶颈问题,我无法在一个sqoop中创建超过10个映射器。让我知道是否有任何简单的解决方案。
最佳答案
在直接模式下有解决方案。
您可以使用--direct-split-size
(以字节为单位)
示例:--direct-split-size 200000000
会生成大约文件。 200 MB。
检查here以获得更多详细信息。
关于hadoop - 缩小到更多小尺寸零件,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42705353/