我正在使用langdetect来确定我知道是英语还是法语的一组字符串的语言。

有时,langdetect告诉我该语言是罗马尼亚语,因为我知道它是法语的字符串。

如何使langdetect仅在英语或法语之间选择,而不能在所有其他语言之间进行选择?

谢谢!

最佳答案

选项1

一种选择是改用langid包。然后,您可以使用方法调用简单地限制语言:

import langid
langid.set_languages(['fr', 'en'])  # ISO 639-1 codes
lang, score = langid.classify('This is a french or english text')
print(lang) # en

选项2

如果您确实要使用langdetect包,则可以复制包文件夹(如果不确定它在哪里,请使用python -m site --user-site)并从langdetect\profiles文件夹中删除不需要的配置文件。

但是,这不是一个非常动态的解决方案。

关于Python langdetect : choose between one language or the other only,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/37235932/

10-12 23:18