命名实体识别与自定义数据

命名实体识别与自定义数据

本文介绍了NLTK 命名实体识别与自定义数据的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在尝试使用 NLTK 从我的文本中提取命名实体.我发现 NLTK NER 对我的目的来说不是很准确,我也想添加一些我自己的标签.我一直在努力寻找一种方法来训练我自己的 NER,但我似乎无法找到合适的资源.我有几个关于 NLTK 的问题-

I'm trying to extract named entities from my text using NLTK. I find that NLTK NER is not very accurate for my purpose and I want to add some more tags of my own as well. I've been trying to find a way to train my own NER, but I don't seem to be able to find the right resources.I have a couple of questions regarding NLTK-

  1. 我可以使用自己的数据在 NLTK 中训练命名实体识别器吗?
  2. 如果我可以使用自己的数据进行训练,named_entity.py 是要修改的文件吗?
  3. 输入文件格式是否必须在 IOB 中,例如.Eric NNP B-PERSON ?
  4. 是否有任何资源 - 除了我可以使用的 nltk 食谱和 nlp with python 之外?

我非常感谢这方面的帮助

I would really appreciate help in this regard

推荐答案

您是否承诺使用 NLTK/Python?我遇到了和你一样的问题,使用斯坦福的命名实体识别器得到了更好的结果:http://nlp.stanford.edu/software/CRF-NER.shtml.使用您自己的数据训练分类器的过程在 FAQ 中有很好的记录.

Are you committed to using NLTK/Python? I ran into the same problems as you, and had much better results using Stanford's named-entity recognizer: http://nlp.stanford.edu/software/CRF-NER.shtml. The process for training the classifier using your own data is very well-documented in the FAQ.

如果你真的需要使用 NLTK,我会点击邮件列表从其他用户那里获得一些建议:http://groups.google.com/group/nltk-users.

If you really need to use NLTK, I'd hit up the mailing list for some advice from other users: http://groups.google.com/group/nltk-users.

希望这有帮助!

这篇关于NLTK 命名实体识别与自定义数据的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

09-05 01:26