我有三个大小相同的RDD,rdd1包含一个字符串标识符,rdd2包含一个矢量,rdd3包含一个整数值。

本质上,我想将这三个压缩在一起以获得RDD[String,Vector,Int]的RDD,但我一直无法获得分区数量不相等的RDD。如何完全绕开zip做上述事情?

最佳答案

尝试:

rdd1.zipWithIndex.map(_.swap).join(rdd2.zipWithIndex.map(_.swap)).values

关于scala - 无法压缩分区数量不相等的RDD。我可以用什么替代zip?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/40405891/

10-12 22:32