我将NLTK WordNet Lemmatizer用于词性标记项目,方法是首先将训练语料库中的每个单词修改为其词干(就地修改),然后仅对新语料库进行训练。但是,我发现lemmatizer不能正常运行。

例如,单词loves被词形化为正确的love,但是单词loving甚至在经过词形化后仍保持loving。这里loving就像句子“我爱它”中的一样。
love是否不是词尾loving的词干?类似地,在残词化之后,许多其他“ing”形式仍然保留。这是正确的行为吗?

还有其他一些准确的词条修饰词吗? (不需要在NLTK中)在确定单词词干时,是否有形态分析仪或词义分析程序也考虑到单词的词性标签?例如,如果将killing用作动词,则kill词应以killing作为词干,但如果将其用作名词,则应以killing作为词干(如the killing was done by xyz)。

最佳答案

WordNet lemmatizer确实考虑了POS标签,但是并不能神奇地确定它:

>>> nltk.stem.WordNetLemmatizer().lemmatize('loving')
'loving'
>>> nltk.stem.WordNetLemmatizer().lemmatize('loving', 'v')
u'love'

没有POS标签,它将假定您提供的所有内容都是一个名词。因此,这里认为您正在为它传递名词“loving”(如“sweet love”)。

09-25 21:14