如何在PySpark中指定拼花块大小和页面大小我到处都找过,但找不到函数调用或导入库的任何文档。

最佳答案

根据spark-user archives

sc.hadoopConfiguration.setInt("dfs.blocksize", some_value)
sc.hadoopConfiguration.setInt("parquet.block.size", some_value)

所以在皮斯帕克
sc._jsc.hadoopConfiguration().setInt("dfs.blocksize", some_value)
sc._jsc.hadoopConfiguration().setInt("parquet.block.size", some_value)

10-04 17:05