问题描述
我正在尝试使用 NLTK 从我的文本中提取命名实体.我发现 NLTK NER 对我的目的来说不是很准确,我也想添加一些我自己的标签.我一直在努力寻找一种方法来训练我自己的 NER,但我似乎无法找到合适的资源.我有几个关于 NLTK 的问题-
I'm trying to extract named entities from my text using NLTK. I find that NLTK NER is not very accurate for my purpose and I want to add some more tags of my own as well. I've been trying to find a way to train my own NER, but I don't seem to be able to find the right resources.I have a couple of questions regarding NLTK-
- 我可以使用自己的数据在 NLTK 中训练命名实体识别器吗?
- 如果我可以使用自己的数据进行训练,named_entity.py 是要修改的文件吗?
- 输入文件格式是否必须在 IOB 中,例如.Eric NNP B-PERSON ?
- 是否有任何资源 - 除了我可以使用的 nltk 食谱和 nlp with python 之外?
我非常感谢这方面的帮助
I would really appreciate help in this regard
推荐答案
您是否承诺使用 NLTK/Python?我遇到了和你一样的问题,使用斯坦福的命名实体识别器得到了更好的结果:http://nlp.stanford.edu/software/CRF-NER.shtml.使用您自己的数据训练分类器的过程在 FAQ 中有很好的记录.
Are you committed to using NLTK/Python? I ran into the same problems as you, and had much better results using Stanford's named-entity recognizer: http://nlp.stanford.edu/software/CRF-NER.shtml. The process for training the classifier using your own data is very well-documented in the FAQ.
如果你真的需要使用 NLTK,我会点击邮件列表从其他用户那里获得一些建议:http://groups.google.com/group/nltk-users.
If you really need to use NLTK, I'd hit up the mailing list for some advice from other users: http://groups.google.com/group/nltk-users.
希望这有帮助!
这篇关于NLTK 命名实体识别与自定义数据的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!