This question already has an answer here:
Requirements for converting Spark dataframe to Pandas/R dataframe
(1个答案)
我有一个Spark数据框,可以使用
pyspark中提供的方法。
我对此有以下疑问?
这个转换是否破坏了使用spark的目的
本身(分布式计算)?
数据集会很大,那么速度和内存呢
问题?
如果有人也能解释,这个到底会发生什么
一行代码,真的很有用。
谢谢
(1个答案)
我有一个Spark数据框,可以使用
toPandas()
pyspark中提供的方法。
我对此有以下疑问?
这个转换是否破坏了使用spark的目的
本身(分布式计算)?
数据集会很大,那么速度和内存呢
问题?
如果有人也能解释,这个到底会发生什么
一行代码,真的很有用。
谢谢
最佳答案
是的,一旦在spark数据帧上调用toPandas
,它将退出分布式系统,新的pandas数据帧将位于集群的驱动节点中。
如果spark数据帧很大,如果不能放入驱动程序内存,它将崩溃。