我需要找到一个共同的词根匹配的所有相关词的关键字提取器。
如何使用python nltk引理器将单词转换为相同的根?
如:
一般化,一般化->一般
优化,优化->优化(可能)
配置,配置,配置->配置
python nltk引理器在使用部分语音(pos)标记参数但不用于“泛化”时为“泛化”和“泛化”提供“泛化”。

最佳答案

使用雪球词干分析器:

>>> from nltk.stem.snowball import SnowballStemmer
>>> stemmer = SnowballStemmer("english")
>>> print(stemmer.stem("generalized"))
general
>>> print(stemmer.stem("generalization"))
general

注:柠檬化作用与堵塞密切相关。区别在于
词干分析器在不知道
上下文,因此不能区分
根据词性的不同而有不同的意思。
我在lemmatizers中看到的一个普遍问题是,它将更大的单词识别为引理。
例子:
在WordNet Lemmatizer(签入NLTK)中,
Genralized=>泛化
泛化=>泛化
一般化
在上述情况下,POS标签不作为输入,因此它通常被视为名词。

08-16 23:12