Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。












想改善这个问题吗?更新问题,以便将其作为on-topic用于堆栈溢出。

6年前关闭。



Improve this question




我正在寻找Java的简单但“足够好”的命名实体识别库(和字典),我正在处理电子邮件和文档并提取一些“基本信息”,例如:
姓名,地点,地址和日期

我一直在环顾四周,大多数似乎都是沉重的一面和完整的NLP项目。

有什么建议吗?

最佳答案

您可能想看看my earlier answers之一来解决类似问题。

除此之外,大多数较轻的NER系统在很大程度上取决于所使用的域。例如,您将找到有关生物医学NER系统的大量工具和论文。除了我以前的文章(如果您想进行NER,它已经包含了我的主要建议)之外,还可能需要研究以下一些工具:

  • Stanford CER-NER
  • Postech Biomedical NER System(如果您对此特定域感兴趣)
  • OpenCalais似乎是一个商业系统。有UIMA wrappers for OpenCalais,但它们似乎过时了。 UIMA还有一个基于字典的Context-Mapper注释器,可以帮助您。请注意,UIMA意味着学习曲线时会产生大量开销;-)
  • OpenNLP也具有NER工具。
  • Balie也会执行NER。
  • ABNER可以进行NER,但同样要重点关注生物医学 Realm 。
  • 来自德国耶拿大学的JULIE Lab Tools也做NER。它们具有独立版本和UIMA分析引擎。

  • 补充说明:如果没有对输入进行标记化,您将无法摆脱。自然语言的标记化并不是一件容易的事,这就是为什么我建议您使用一个可以同时为您实现这两个目的的工具箱。

    关于java - Java命名实体识别库,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/188176/

    10-12 17:57