在文档中,我将看到使用params调用java类:
java edu.stanford.nlp.parser.nndep.DependencyParser -tlp
edu.stanford.nlp.trees.international.penchinese.ChineseTreebank语言包
-trainFile chinese / train.conll -devFile chinese / dev.conll -embedFile chinese / embeddings.txt -embeddingSize 50 -model
nndep.chinese.model.txt.gz
在哪里可以找到这3个文件的规范?
chinese / train.conll-这是火车文件(http://ilk.uvt.nl/conll/#dataformat的规范)
chinese / dev.conll-这是什么?
chinese / embeddings.txt-这是什么?
最佳答案
chinese / train.conll,chinese / dev.conll:这些是CoNLL 2006格式的training / dev文件,如本文第4.1节http://cs.stanford.edu/~danqi/papers/emnlp2014.pdf所述。 (通常,我们无权将数据集分发给其他人。)
chinese / embeddings.txt:这些是通过word2vec训练的词嵌入,如同一篇论文的第3.2节中所述。