我发现了stanford-nlp的工具,并发现它真的很有趣。
我是法国的数据挖掘人员/数据科学家,喜欢文本分析,并且愿意使用您的工具,但是NER的法文版本对我来说非常令人困惑。

我很想制作自己的法语NER,如果认为值得的话,甚至可以提供它作为对软件包的贡献,所以...您能向我介绍基于斯坦福coreNLP为法语NER培训CRF的要求吗?

谢谢你。

最佳答案

注意:我不是斯坦福工具的开发人员,也不是NLP专家。只是lambda用户在某个时候也需要此类信息。另请注意,以下给出的部分信息来自官方的常见问题解答:http://nlp.stanford.edu/software/crf-faq.shtml#a

这是我训练自己的NER所遵循的步骤:

  • 安装java8
  • 创建训练/测试样本。它必须采用以下格式的.tsv文件形式:
      Venez    O
      découvrir    O
      lundi    DAY
      le    O
      nouvel    O
      espace    O
      de    O
      vente    O
      ODHOJS    ORGANISATION
    

    根据文本的原始格式,可以使用SQL语句或其他NLP工具创建此示例。标签是最复杂的部分,因为除了手工操作外,我不知道其他方法。
  • 使用以下命令训练模型:
    java -cp "stanford-ner.jar:lib/*" -mx4g edu.stanford.nlp.ie.crf.CRFClassifier -prop prop.txt
    

    其中prop.txt也被描述为here

    这应该创建一个包含新训练的模型的新.jar
  • 测试模型性能:
    java -cp "stanford-ner.jar:lib/*" edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz -testFile test.tsv > test.res
    

    输入的test.tsvtrain.tsv文件具有相同的格式。 test.res中的输出有一个额外的列,其中包含NER预测的类。最后几行还显示了有关精度,召回率和F1的摘要。
  • 最后,您可以对实际数据使用NER:
    java -cp "stanford-ner.jar:lib/*" -mx5g edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz  -textFile test.txt -outputFormat inlineXML > test.res
    

  • 希望能帮助到你。

    关于stanford-nlp - 如何基于斯坦福-nlp条件随机场模型训练法国NER?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/37852084/

    10-13 07:08