我有三个大小相同的RDD,rdd1
包含一个字符串标识符,rdd2
包含一个矢量,rdd3
包含一个整数值。
本质上,我想将这三个压缩在一起以获得RDD[String,Vector,Int]
的RDD,但我一直无法获得分区数量不相等的RDD。如何完全绕开zip做上述事情?
最佳答案
尝试:
rdd1.zipWithIndex.map(_.swap).join(rdd2.zipWithIndex.map(_.swap)).values
关于scala - 无法压缩分区数量不相等的RDD。我可以用什么替代zip?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/40405891/