目前正在从事一个自然语言处理项目,在该项目中,我需要将非结构化书目部分(在研究文章的末尾)转换为结构化元数据,例如“年”,“作者”,“期刊”,“卷ID”,“页面”数字”,“标题”等。

例如:输入

McCallum, A.; Nigam, K.; and Ungar, L. H. (2000). Efficient clustering of high-dimensional data sets with application to reference matching. In Knowledge Discovery and Data Mining, 169–178

预期产量:

<Author> McCallum, A.</Author> <Author>Nigam, K.</Author> <Author>Ungar, L. H.</Author>
<Year> 2000 </Year>
<Title>Efficient clustering of high-dimensional data sets with application to reference matching <Title> and so on

使用的工具:CRFsuite

数据集:其中包含12000个引用
  • 包含期刊标题
  • 包含文章标题的单词
  • 包含位置名称


  • 给定行中的每个单词都被视为标记,对于每个标记,我得出以下特征
  • BOR位于行首
  • 结束
  • 的EOR
  • digitFeature:如果 token 是数字
  • Year:如果 token 的年份格式为19 **和20 **
  • 可用于当前数据集


  • 通过上面的工具和数据集,我仅获得了63.7%的准确度。 “标题”的准确性非常差,而“年”和“量”的准确性则差。

    问题:
  • 我可以绘制任何其他功能吗?
  • 我可以使用其他任何工具吗?
  • 最佳答案

    我建议以现有方法为基础建立解决方案。以this paper为例



    3.2和4.2节提供了许多功能的描述。

    至于CRF的实现,还有其他工具,例如this one,但我认为这不是准确性低的原因。

    09-11 18:16
    查看更多