我写了一个代码,将查询发送到Google并返回结果。我从这些结果中提取片段(摘要)以供进一步处理。然而,有时非英语单词在这些片段中,我不想要它们。例如:

/\u02b0w\u025bn w\u025bn unstressed \u02b0w\u0259n w\u0259n/

我只想要这个句子中的“无重音”字。
我该怎么做?
谢谢

最佳答案

PyEnchant对你来说可能是个简单的选择。我不知道它的速度,但你可以这样做:

>>> import enchant
>>> d = enchant.Dict("en_US")
>>> d.check("Hello")
True
>>> d.check("Helo")
False
>>>

here中找到一个教程,它还有返回建议的选项,您可以再次返回其他查询或其他内容的建议。此外,您还可以检查您的结果是否是拉丁语-1(is_utf8()激子,不知道is_拉丁语-1()是否也有,可以使用类似于Enca的方法,根据对文本文件语言的了解来检测文本文件的编码。)

关于python - 从python的句子中删除非英语单词,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/4031556/

10-09 08:22