我在Pandas中使用read_csv从S3读取数据。我想知道它是先将文件下载到本地磁盘,然后加载到内存中,还是直接将传入的数据流到内存中,而不需要中间的加载步骤。
我对Spark的sqlContext.read.load函数也有同样的问题。

最佳答案

pandas uses boto用于访问s3,它does appear to stream文件数据。

关于python - 是read_csv()中的S3阅读器首先将文件下载到磁盘还是使用流式传输?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/36437856/

10-10 07:14