我是文字挖掘的新手。我使用的是开放源代码jar(Mate Parser),它在依赖项解析后以CoNLL 2009格式提供输出。我想将依赖项解析结果用于信息提取。但是我能够理解一些输出,但是不能理解CoNLL数据格式。谁能帮助我理解CoNLL数据格式?任何类型的指针将不胜感激。
最佳答案
由于CoNLL每年是一个不同的共享任务,因此存在许多不同的CoNLL格式。 CoNLL 2009的格式描述为here。每行代表一个单词,带有一系列制表符分隔的字段。 _
表示空值。 Mate-Parser's manual说它使用CoNLL 2009的前12列:
ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL
其中一些列的定义来自早期的共享任务(2006和2007中使用的CoNLL-X format):
ID
(句子中的索引,从1开始)FORM
(单词形式本身)LEMMA
(单词的引理或词干)POS
(词性)FEAT
(用|隔开的形态特征列表)HEAD
(语法父级的索引,ROOT
为0)DEPREL
(HEAD
和此单词之间的句法关系)那些以
PPOS
开头的列(例如POS
而不是P
)存在变体,表示该值是自动预测的,而不是黄金标准值。更新:现在还有一种CoNLL-U数据格式,它扩展了CoNLL-X格式。
关于nlp - 什么是CoNLL数据格式?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/27416164/