我遇到过RDD上的glom()方法。根据文档


glom会在分区上混洗数据还是仅将分区数据作为数组返回?在后一种情况下,我相信可以使用mapPartitions达到相同的目的。

我还想知道glom是否有任何用例受益。

最佳答案



不,不是



它可以:

rdd.mapPartitions(iter => Iterator(_.toArray))

但同样的事情也适用于任何非改组的转换,例如mapflatMapfilter



在任何情况下,您都需要以不止一次可遍历的形式访问分区数据。

10-06 11:17