我正在使用python的内置库nltk来获取stanford ner tagger api的设置,但是我看到此api标记单词与stanford ner ger tagger网站上的在线演示之间存在不一致。某些单词在在线演示中被标记而它们不在api中在python中,类似地,某些词的标签也有所不同。我使用了网站中提到的相同分类器。谁能告诉我为什么会出现问题,并且有什么解决方案..?
最佳答案
我遇到了同样的问题,并确定我的代码和在线演示对文本应用了不同的格式设置规则。
https://github.com/dat/pyner/blob/master/ner/client.py
for s in ('\f', '\n', '\r', '\t', '\v'): #strip whitespaces
text = text.replace(s, '')
text += '\n' #ensure end-of-line
关于stanford-nlp - nltk stanford ner tagger和stanford ner tagger在线演示之间的不一致,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32659639/