我观察到以下情况:

>>> print '£' + '1'
£1
>>> print '£' + u'1'
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128)
>>> print u'£' + u'1'
£1
>>> print u'£' + '1'
£1

为什么 '£' + '1' 有效而 '£' + u'1' 无效?

我查看了以下类型:
>>> type('£' + '1')
<type 'str'>
>>> type('£' + u'1')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128)
>>> type(u'£' + u'1')
<type 'unicode'>

这也让我很困惑。如果 '£' + '1'str 而不是 unicode ,为什么它可以在我的终端上正确打印?它不应该打印类似 '\xc2\xa31'? 的内容吗?

为了添加到混合中,我还观察到以下几点:
>>> u'£' + '1'
u'\xa31'
>>> type('1')
<type 'str'>
>>> type(u'£')
<type 'unicode'>
>>> print u'£' + '1'
£1

为什么 u'£' + '1' 不能正确打印出 £ 符号,而 print u'£' + '1' 呢?是不是因为前者使用了repr,而后者使用了str

另外,在这种情况下,unicodestr 的连接如何工作,但在 '£' + u'1' 情况下却不起作用?

最佳答案

您正在混合对象类型。
'£' 是一个字节串,包含编码数据。这些字节碰巧代表终端或控制台中的英镑符号既不存在也不存在,它可能与图像中的像素一样多。您的终端或控制台被配置为生成和接受 UTF-8 数据,因此当以十六进制表示时,该字节串的实际内容是两个字节 C2 和 A3。

另一方面,u'1' 是一个 Unicode 字符串。它是明确的文本数据。如果您想将其他数据连接到它,它也应该是 Unicode。如果您尝试这样做,Python 2 将使用默认的 ASCII 编解码器自动将 str 字节解码为 Unicode。

但是,'£' 字节串不能解码为 ASCII。可以解码为UTF-8;显式解码字节,因为我们在这里知道正确的编解码器:

print '£'.decode('utf8') + u'1'

将字节写入终端或控制台时,是您的终端或控制台解释字节并理解它们。如果您将 unicode 对象写入终端,则 sys.stdout 对象负责编码,将文本转换为您的终端或控制台能够理解的字节。

这同样适用于输入; sys.stdin 流产生字节,当您使用 u'£' 语法创建 Unicode 对象时,Python 可以透明地解码这些字节。您在键盘上输入字符,终端或控制台将其转换为 UTF-8 字节,然后写入 Python 进行解释。

那么,将 '\xc2\xa3'print 一起写入是一个愉快的巧合。您可以获取 unicode 对象,将其编码为不同的编解码器,最终得到垃圾输出:
>>> print u'£1'.encode('latin-1')
?1

我的 Mac 终端将为 £ 符号写入的数据转换为 ? ,因为 A3 字节(磅符号的拉丁语 1 代码点)在解释为 UTF-8 时不会映射到任何内容。

Python 从 locale.getpreferredencoding() function 确定终端或控制台编解码器,您可以通过 sys.stdout.encodingsys.stdin.encoding 属性观察终端或控制台使用的内容:
>>> import sys
>>> sys.stdout.encoding
'UTF-8'

最后但并非最不重要的一点是,您不应将打印与解释器在交互模式下回显的表示混淆。解释器使用 repr() 函数显示表达式的结果,该函数是一种调试工具,尝试尽可能仅使用 ASCII 字符生成 Python 文字符号。对于 Unicode 值,这意味着使用转义序列反射(reflect)任何不可打印的非 ASCII 字符。这使得该值适用于复制和粘贴,而无需超过支持 ASCII 的介质。

例如,repr()str 结果使用 \n 作为换行符,\xhh 十六进制转义用于没有专用转义序列的字节。此外,对于 unicode 对象,Latin-1 范围之外的代码点用 \uhhhh\Uhhhhhhhh 转义序列表示,具体取决于它们是否是基本多语言平面的一部分:
>>> u'''\
... A multiline string to show newlines
... can contain £ latin characters
... or emoji 💩!
... '''
u'A multiline string to show newlines\ncan contain \xa3 latin characters\nor emoji \U0001f4a9!\n'
>>> print _
A multiline string to show newlines
can contain £ latin characters
or emoji 💩!

关于python - 将 Unicode 与字符串 : print '£' + '1' works, 连接但打印 '£' + u'1' 会抛出 UnicodeDecodeError,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31771758/

10-14 19:18
查看更多