在 Python 中使用直接方法复制文件通常是这样的:

def copyfileobj(fsrc, fdst, length=16*1024):
    """copy data from file-like object fsrc to file-like object fdst"""
    while 1:
        buf = fsrc.read(length)
        if not buf:
            break
        fdst.write(buf)

(顺便说一下,这段代码来自shutil.py)。

不幸的是,这在我的特殊用例中存在缺陷(涉及线程和非常大的缓冲区)[斜体部分稍后添加]。首先,这意味着每次调用 read() 都会分配一个新的内存块,当 buf 在下一次迭代中被覆盖时,该内存将被释放,只是为了相同的目的再次分配新内存。这会减慢整个过程并给主机带来不必要的负载。

为了避免这种情况,我使用了 file.readinto() 方法,不幸的是,该方法已被记录为已弃用且“请勿使用”:
def copyfileobj(fsrc, fdst, length=16*1024):
    """copy data from file-like object fsrc to file-like object fdst"""
    buffer = array.array('c')
    buffer.fromstring('-' * length)
    while True:
        count = fsrc.readinto(buffer)
        if count == 0:
            break
        if count != len(buffer):
            fdst.write(buffer.toString()[:count])
        else:
            buf.tofile(fdst)

我的解决方案有效,但也有两个缺点:首先,不使用 readinto()。它可能会消失(文档说)。其次,使用 readinto() 我无法决定要读入缓冲区的字节数,而使用 buffer.tofile() 我无法决定要写入的字节数,因此最后一个块的特殊情况(这也是不必要的)昂贵的)。

我看过 array.array.fromfile(),但它不能用于读取“所有存在的”(读取,然后抛出 EOFError 并且不分发处理项目的数量)。它也不是结束特殊情况问题的解决方案。

有没有合适的方法来做我想做的事?也许我只是忽略了一个简单的缓冲区类或类似的东西,它可以满足我的需求。

最佳答案

普通的 Python 代码不需要这样的调整 - 但是,如果您真的需要所有性能调整来从 Python 代码内部读取文件(例如,您正在重写您编写的某些服务器 coe,并且已经可以提高性能或内存使用)我宁愿使用 ctypes 直接调用操作系统 - 因此也可以按照我想要的低级别执行副本。

甚至有可能将“cp”可执行文件简单地调用为外部进程在您的情况下不是一个障碍(并且它会为您充分利用所有操作系统和文件系统级别的优化)。

关于python - readinto() 替换?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/9791780/

10-12 21:22