目前正在从事一个自然语言处理项目,在该项目中,我需要将非结构化书目部分(在研究文章的末尾)转换为结构化元数据,例如“年”,“作者”,“期刊”,“卷ID”,“页面”数字”,“标题”等。
例如:输入
McCallum, A.; Nigam, K.; and Ungar, L. H. (2000). Efficient clustering of high-dimensional data sets with application to reference matching. In Knowledge Discovery and Data Mining, 169–178
预期产量:
<Author> McCallum, A.</Author> <Author>Nigam, K.</Author> <Author>Ungar, L. H.</Author>
<Year> 2000 </Year>
<Title>Efficient clustering of high-dimensional data sets with application to reference matching <Title> and so on
使用的工具:CRFsuite
数据集:其中包含12000个引用
给定行中的每个单词都被视为标记,对于每个标记,我得出以下特征
通过上面的工具和数据集,我仅获得了63.7%的准确度。 “标题”的准确性非常差,而“年”和“量”的准确性则差。
问题:
最佳答案
我建议以现有方法为基础建立解决方案。以this paper为例
3.2和4.2节提供了许多功能的描述。
至于CRF的实现,还有其他工具,例如this one,但我认为这不是准确性低的原因。