我是文字挖掘的新手。我使用的是开放源代码jar(Mate Parser),它在依赖项解析后以CoNLL 2009格式提供输出。我想将依赖项解析结果用于信息提取。但是我能够理解一些输出,但是不能理解CoNLL数据格式。谁能帮助我理解CoNLL数据格式?任何类型的指针将不胜感激。

最佳答案

由于CoNLL每年是一个不同的共享任务,因此存在许多不同的CoNLL格式。 CoNLL 2009的格式描述为here。每行代表一个单词,带有一系列制表符分隔的字段。 _表示空值。 Mate-Parser's manual说它使用CoNLL 2009的前12列:

ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL

其中一些列的定义来自早期的共享任务(2006和2007中使用的CoNLL-X format):
  • ID(句子中的索引,从1开始)
  • FORM(单词形式本身)
  • LEMMA(单词的引理或词干)
  • POS(词性)
  • FEAT(用|隔开的形态特征列表)
  • HEAD(语法父级的索引,ROOT为0)
  • DEPREL(HEAD和此单词之间的句法关系)

  • 那些以PPOS开头的列(例如POS而不是P)存在变体,表示该值是自动预测的,而不是黄金标准值。

    更新:现在还有一种CoNLL-U数据格式,它扩展了CoNLL-X格式。

    关于nlp - 什么是CoNLL数据格式?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/27416164/

    10-12 02:51