我遇到过RDD上的glom()
方法。根据文档
glom
会在分区上混洗数据还是仅将分区数据作为数组返回?在后一种情况下,我相信可以使用mapPartitions
达到相同的目的。
我还想知道glom
是否有任何用例受益。
最佳答案
不,不是
它可以:
rdd.mapPartitions(iter => Iterator(_.toArray))
但同样的事情也适用于任何非改组的转换,例如
map
,flatMap
或filter
。在任何情况下,您都需要以不止一次可遍历的形式访问分区数据。