我在Pandas中使用read_csv
从S3读取数据。我想知道它是先将文件下载到本地磁盘,然后加载到内存中,还是直接将传入的数据流到内存中,而不需要中间的加载步骤。
我对Spark的sqlContext.read.load
函数也有同样的问题。
最佳答案
pandas uses boto用于访问s3,它does appear to stream文件数据。
关于python - 是read_csv()中的S3阅读器首先将文件下载到磁盘还是使用流式传输?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/36437856/