为什么以下两种解码方法返回不同的结果?

>>> import codecs
>>>
>>> data = ['', '', 'a', '']
>>> list(codecs.iterdecode(data, 'utf-8'))
[u'a']
>>> [codecs.decode(i, 'utf-8') for i in data]
[u'', u'', u'a', u'']

这是错误还是预期的行为?我的python版本2.7.13。

最佳答案

这很正常。iterdecode接受编码块上的迭代器并返回解码块上的迭代器,但它不保证一对一的对应。它所保证的是,所有输出块的连接是对所有输入块连接的有效解码。
如果您查看source code,您将看到它显式地丢弃空输出块:

def iterdecode(iterator, encoding, errors='strict', **kwargs):
    """
    Decoding iterator.
    Decodes the input strings from the iterator using an IncrementalDecoder.
    errors and kwargs are passed through to the IncrementalDecoder
    constructor.
    """
    decoder = getincrementaldecoder(encoding)(errors, **kwargs)
    for input in iterator:
        output = decoder.decode(input)
        if output:
            yield output
    output = decoder.decode("", True)
    if output:
        yield output

要知道iterdecode存在的原因,以及你不会自己调用所有块上的decode的原因,是解码过程是有状态的。一个字符的utf-8编码形式可能被分成多个块。其他编解码器可能会有非常奇怪的状态行为,比如一个字节序列,它会反转所有字符的大小写,直到您再次看到该字节序列。

08-28 03:54