我正在尝试为段落中的每个单词找到正确的词性。我正在使用Stanford POS Tagger。但是,我陷入了困境。

我想从该段中找出介词。

Penn Treebank标签集说:

IN  Preposition or subordinating conjunction

如何确定当前单词是介词还是从属连词。在这种情况下,如何只从段落中提取介词?

最佳答案

你不能确定。这种PoS有点奇怪的原因是,很难自动确定例如for是介词还是从属连词。因此,为了使自动标记器具有更好的精度,可以忽略这种区别。请注意,还有一个标记TO,该标记适用于任何to出现,无论其充当介词,不定式粒子或其他任何形式(我认为还有其他形式)。

如果您需要正确识别介词,则需要使用经过修改的标签集来重新训练标记器,或者可能需要训练采用PoS标记的文本并且仅能最终消除歧义的分类器。

关于nlp - 识别介词和个人POS,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/30450705/

10-12 21:15