我想识别特定领域(例如棒球)中的命名实体。我知道有一些可用的工具,例如StanfordNER,LingPipe,AlchemyAPI,我已经对其进行了一些测试。但是,正如我前面提到的,我希望它们是针对特定领域的。这怎么可能?
最佳答案
一种方法可能是
使用通用(非域特定)工具来检测人员姓名
使用主题分类器过滤掉不在域中的文本
如果数据集的总大小足够大,并且提取器和分类器的精度足够好,则可以使用该结果来获取与所关注域密切相关的人员姓名列表(例如,将结果限制为那些在特定领域的文本中比在其他文本中更经常被提及)。
就棒球而言,这应该是获得与棒球相关人员名单的一种相当不错的方法。但是,这不是仅获取棒球运动员名单的好方法。对于后者,有必要分析确切的上下文,其中提到名字和关于它们的事情;但这不是必需的。
编辑:按主题分类器,我的意思是与其他人可能简称为分类,文档分类,域分类或类似内容的相同。即用型工具的示例包括Python-NLTK中的分类器(请参阅here)和LingPipe中的分类器(请参见here)。