火花访问前n行-限制 | Time

Time

从Glassfish 4.0迁移到Glassfish 4.1.1-JDBC领域问题

如何等待 QueryCompleted 事件?

iframe 是否有可能在没有主窗口帮助的情况下调整自身大小?

多维数组作为函数参数

Windows Phone 10从后台任务重新打开应用程序

tensorflow batch_matmul 是如何工作的?

如何对特定的矩形区域内提取一个pdf文档的文本？

表达:从Content-Type"application/json;中删除charset = utf-8； charset = utf-8"；

在 node.js 中协调并行执行

如何解决pdf标头签名未找到错误?

角度2:跨不同路线共享数据

如何在不覆盖当前数据的情况下将数据写入文本文件

“上载器"必须是FileUploader的实例

如何以一定角度绘制 NSString?

编译> 2 GB的代码时如何修复GCC编译错误?

火花访问前n行-限制

扫码查看

本文介绍了火花访问前n行-限制的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我想访问spark数据帧的前100行，并将结果写回CSV文件.

I want to access the first 100 rows of a spark data frame and write the result back to a CSV file.

为什么take(100)基本上是即时的，而

Why is take(100) basically instant, whereas

df.limit(100)
      .repartition(1)
      .write
      .mode(SaveMode.Overwrite)
      .option("header", true)
      .option("delimiter", ";")
      .csv("myPath")

永远存在.我不想获得每个分区的前100条记录，而只是获得任何100条记录.

takes forever.I do not want to obtain the first 100 records per partition but just any 100 records.

推荐答案

这是因为Spark当前不支持谓词下推，请参见这个很好的答案.

This is because predicate pushdown is currently not supported in Spark, see this very good answer.

实际上，take(n)也应该花费很长时间.但是，我刚刚对其进行了测试，并得到了与您相同的结果-无论数据库大小如何，take几乎都是瞬时的，而limit需要很多时间.

Actually, take(n) should take a really long time as well. I just tested it, however, and get the same results as you do - take is almost instantaneous irregardless of database size, while limit takes a lot of time.

这篇关于火花访问前n行-限制的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持！

08-04 13:32