以下代码使用gzip、bz2和lzma编写压缩文本文件,然后读取并打印其二进制内容。

import bz2
import gzip
import lzma
import os


def test(encoding):
    print(encoding)
    for module in [gzip, bz2, lzma]:

        path = '/tmp/test.txt.%s' % module.__name__
        if os.path.exists(path):
            os.remove(path)

        with module.open(path, 'wt', encoding=encoding) as fout:
            fout.write('Ciao')

        with module.open(path, 'rb') as fin:
            print("%8s" % module.__name__, 'bytes:', fin.read())


test('utf-16')
print('')
test('utf-32')

输出为:
utf-16
    gzip bytes: b'\xff\xfeC\x00i\x00a\x00o\x00'
     bz2 bytes: b'C\x00i\x00a\x00o\x00'
    lzma bytes: b'C\x00i\x00a\x00o\x00'

utf-32
    gzip bytes: b'\xff\xfe\x00\x00C\x00\x00\x00i\x00\x00\x00a\x00\x00\x00o\x00\x00\x00'
     bz2 bytes: b'C\x00\x00\x00i\x00\x00\x00a\x00\x00\x00o\x00\x00\x00'
    lzma bytes: b'C\x00\x00\x00i\x00\x00\x00a\x00\x00\x00o\x00\x00\x00'

如您所见,bz2和lzma不编写BOM(字节顺序标记),而gzip按预期执行。这意味着,如果我试图以文本模式(例如bz2.open(path, 'rt', encoding='utf-16'))读取bz2/lzma文件,则会引发UnicodeError,抱怨缺少BOM。
为什么?是虫子吗?

最佳答案

我在回答我自己的问题。简而言之:是的,这绝对是C实现io.TextIOWrapper的一个bug。
当您以文本模式(压缩或不压缩)打开文件时,返回的是一个包装二进制文件读取器的io.TextIOWrapperio.TextIOWrapper在扩展模块的C中实现。原来还有一个_io模块的Python实现,即io模块。_pyio按预期工作,所以这肯定是C实现的一个bug。
以下代码演示了该问题:

import bz2
import io
import _pyio

def test(io_module, encoding='utf-16'):
    path = '/tmp/test.txt.bz2'

    with io_module.TextIOWrapper(bz2.open(path, 'w'), encoding=encoding) as fout:
        fout.write('Ciao')

    with bz2.open(path, 'rb') as fin:
        print("%5s" % io_module.__name__, 'bytes:', fin.read())


test(io)
test(_pyio)

打印内容:
   io bytes: b'C\x00i\x00a\x00o\x00'
_pyio bytes: b'\xff\xfeC\x00i\x00a\x00o\x00'

关于python - Python:模式为'wt'的bz2和lzma不会编写BOM(而gzip是)。为什么?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/55171439/

10-12 18:44