我有一个希伯来语文本文件,我想用Python 2.7将其标记化。但是编码和解码始终存在问题。实际上,我需要标记它以构建BagOfWords()功能(例如,获取所有文本中出现超过100个的所有单词)。因此,结果是最常用的希伯来语列表。我试图解码文本:text = text.decode("cp862")但是输出显示为:\u2229\u2557\u2510.......我希望此文件作为希伯来语单词列表,而不是ascii或utf-8 char。我感谢您的帮助。谢谢 最佳答案 如果您的源文本确实包含希伯来语文本,则转换为通用UNICODE的基于代码页的字符表示形式将使您能够构建语言语料库分析,>内容的表示与每个内容无关。 -se,但取决于UI环境。作为此处的示例,可以编写和显示希伯来语文本,因为该小部件可以正确处理适当的上下文(字符的可视表示,出现顺序,流向):  aSequenceOfCHARs(ALEF,BET,MEM,NUN,AYIN,FINAL PE)显示为:אבמנעף因此,您的主要重点-python中的语言语料库分析-可能与Unicode文本元素无关,而与它们在表示层上的输出无关。关于python - Python中的希伯来文字,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/26228748/
10-11 07:57