当我尝试在UTF-8字符串中查找单词的计数时,得到了下一个:

UnicodeEncodeError
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-4: ordinal not in range(128)


我就是做这个的

tr.words_count = (str(tr.transcribe).count(' '))


我需要计算UTF-8文本中有多少个单词,看来我的方法不起作用。你有什么想法?
谢谢

最佳答案

str(tr.transcribe.decode('utf-8'))


还是更好

unicode(tr.transcribe).count(' ')


甚至更好(如果连续有多个空格,请不要感到困惑),

len(unicode(tr.transcribe).split())

10-05 23:17