我在Java中使用Lucene来索引语料库并从中提取词干词表。我使用EnglishAnalyzer。然后,我将单词表交给Python以使用NLTK做一些事情。
NLTK中是否有与Lucene的EnglishAnalyzer使用的词干器完全兼容的词干器?

我知道我也可以使用PyLucene来规避这一点,但是我想最小化依赖性。

最佳答案

您可以在http://text-processing.com/demo/stem/尝试各种NLTK词干分析器,并将结果与​​Lucene的EnglishAnalyzer的工作方式进行比较。它有可能实现Porter或Lancaster的常见算法之一。

关于python - NLTK和Lucene之间的词干兼容性,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/11350616/

10-12 02:26