我正在为阿尔巴尼亚语尝试 OpenNLP。为此,我正在使用 OPenNLP 并尝试为阿尔巴尼亚语中的人物、位置和组织实体识别构建模型。
我正在建立自己的语料库,但我需要一位 Open NLP 专家来确认我的以下疑问:
1- 我应该为每个模型建立一个单独的语料库,例如对于 ner-person 建立一个只有标签存在的语料库?
2- 是否可以在同一个语料库中标记人员、位置和组织,并使用它来训练能够提取所有三种实体类型的单个模型?
3- 是否有资源可以找到有关 OpenNLP Name finder 模块使用的算法的更多信息?

谢谢你的回复,我真的需要你对我论文的支持

最佳答案

1- 我应该为每个模型建立一个单独的语料库,例如对于 ner-person 建立一个只有标签存在的语料库?
IMO 是的...但是可以有一个模型包含多个名称类型。如果将它们分开,您可以更轻松地更新和迭代改进给定名称的模型,特别是如果它们是大型模型。

2- 是否可以在同一个语料库中标记人员、位置和组织,并使用它来训练能够提取所有三种实体类型的单个模型?
是的,这是可能的,但是如果您计划建立在每个名称类型上并优化模型,那么将它们分开对我来说更容易。

3- 是否有资源可以找到有关 OpenNLP Name finder 模块使用的算法的更多信息?
最好的方法是下拉源代码并使用一些真实数据逐步执行代码......它基于最大熵。

关于java - 如何用OpenNLP实现阿尔巴尼亚语的命名实体识别?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/11970224/

10-12 23:46