这似乎应该很容易解决,但是到目前为止,我还没有找到解决方案。我有一个单列csv文件,其中的非asscii字符保存在utf-8中,我想读入并存储在列表中。我试图遵循"Unicode Sandwich"的原理并在读取文件时进行解码:

import codecs
import csv

with codecs.open('utf8file.csv', 'rU', encoding='utf-8') as file:
input_file = csv.reader(file, delimiter=",", quotechar='|')
list = []
for row in input_file:
    list.extend(row)

这会产生可怕的“编解码器无法在位置上编码字符,序数不在范围(128)内”的错误。

我还尝试过从this answer改编解决方案,该解决方案返回了类似的错误
def unicode_csv_reader(utf8_data, dialect=csv.excel, **kwargs):
    csv_reader = csv.reader(utf8_data, dialect=dialect, **kwargs)
    for row in csv_reader:
        yield [unicode(cell, 'utf-8') for cell in row]

filename = 'inputs\encode.csv'
reader = unicode_csv_reader(open(filename))
target_list = []
for field1 in reader:
    target_list.extend(field1)

docs改编的非常相似的解决方案返回相同的错误。
def unicode_csv_reader(utf8_data, dialect=csv.excel):
    csv_reader = csv.reader(utf_8_encoder(utf8_data), dialect)
    for row in csv_reader:
        yield [unicode(cell, 'utf-8') for cell in row]

def utf_8_encoder(unicode_csv_data):
    for line in unicode_csv_data:
    yield line.encode('utf-8')

filename = 'inputs\encode.csv'
reader = unicode_csv_reader(open(filename))
target_list = []
for field1 in reader:
    target_list.extend(field1)

显然我缺少了一些东西。我所见过的有关此问题的大多数问题似乎早于Python 2.7,因此此处的更新可能会有用。

最佳答案

您的第一个代码段无效。您正在将unicode数据馈送到csv阅读器,该文件(如所记录)无法处理。

您的第二和第三摘要令人困惑。您所需的只是以下内容:

f = open('your_utf8_encoded_file.csv', 'rb')
reader = csv.reader(f)
for utf8_row in reader:
    unicode_row = [x.decode('utf8') for x in utf8_row]
    print unicode_row

10-07 12:54
查看更多