如果我有一个大小为10GB的数据集,并且spark集群中只有10GB的资源(执行程序)可用,那么它将如何以编程方式进行处理? 最佳答案 您似乎假设Spark可用的内存必须等于或超过数据的大小。事实并非如此。 Spark将根据需要溢出到磁盘上。此外,压缩将缩小数据的内存占用量。底线:继续操作而不保留数据(.cache())。