在自然语言处理中,命名实体识别是识别命名实体(例如组织、地点和最重要的名称)的挑战。

尽管我称之为同义词,但其中有一个重大挑战:伯爵和德古拉实际上指的是同一个人,但有可能在文本中从未直接讨论过。

解决这些同义词的最佳算法是什么?

如果任何基于 Python 的库中有此功能,我很想接受教育。我正在使用 NLTK。

最佳答案

您正在描述 coreference resolution 和命名实体链接的问题。我提供单独的链接,因为我不完全确定您指的是哪一个。

  • 引用:Stanford CoreNLP 目前拥有最好的实现之一,但使用的是 Java。我使用了 python bindings 并且我不太高兴 - 我最终通过斯坦福管道运行了我的所有数据,然后在 python 中加载处理过的 XML 文件。显然,如果您必须实时处理,这将不起作用。
  • 命名实体链接:查看 Apache Stanbol 和以下 Stackoverflow post 中的链接。
  • 关于nlp - 如何在命名实体识别中解析同义词?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/15835563/

    10-12 22:50