java - 自然语言处理-将非结构化书目转换为结构化元数据

目前正在从事一个自然语言处理项目，在该项目中，我需要将非结构化书目部分(在研究文章的末尾)转换为结构化元数据，例如“年”，“作者”，“期刊”，“卷ID”，“页面”数字”，“标题”等。

例如:输入

McCallum, A.; Nigam, K.; and Ungar, L. H. (2000). Efficient clustering of high-dimensional data sets with application to reference matching. In Knowledge Discovery and Data Mining, 169–178

预期产量:

<Author> McCallum, A.</Author> <Author>Nigam, K.</Author> <Author>Ungar, L. H.</Author>
<Year> 2000 </Year>
<Title>Efficient clustering of high-dimensional data sets with application to reference matching <Title> and so on

使用的工具:CRFsuite

数据集:其中包含12000个引用

包含期刊标题

包含文章标题的单词

包含位置名称

给定行中的每个单词都被视为标记，对于每个标记，我得出以下特征

BOR位于行首

结束

的EOR

digitFeature:如果 token 是数字

Year:如果 token 的年份格式为19 **和20 **

可用于当前数据集

通过上面的工具和数据集，我仅获得了63.7％的准确度。 “标题”的准确性非常差，而“年”和“量”的准确性则差。

问题:

我可以绘制任何其他功能吗？

我可以使用其他任何工具吗？

最佳答案

我建议以现有方法为基础建立解决方案。以this paper为例

3.2和4.2节提供了许多功能的描述。

至于CRF的实现，还有其他工具，例如this one，但我认为这不是准确性低的原因。