Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。
想改善这个问题吗?更新问题,以使溢出。
5年前关闭。
on-topic
其“自述文件”中的Urls无效( Improve this question 和http://www.fjoch.com/mkcls.html)。有没有关于giza ++的好教程?还是有一些备有完整文档的替代品?
样本2-
通过
在GIZA ++目录中,运行:
其中
这将在与
TEXT1_TEXT2.snt
TEXT1.vcb
TEXT2_TEXT1.snt
TEXT2.vcb
vocab文件包含文本中每个单词的唯一(整数)ID(NB:未标记化/残化),单词/字符串以及该字符串出现的次数。这些用单个空格字符分隔。
句子文件包含数字。对于每个句子对,共有三行:第一是句子对在语料库中出现的次数的计数,第二和第三是与空格相对应的单词条目的一串(以空格分隔) vocab文件。根据
现在,
例如:
但是请注意,当我尝试运行此命令时,必须将
想改善这个问题吗?更新问题,以使溢出。
5年前关闭。
on-topic
其“自述文件”中的Urls无效( Improve this question 和http://www.fjoch.com/mkcls.html)。有没有关于giza ++的好教程?还是有一些备有完整文档的替代品?
最佳答案
以下摘录自我正在上一堂课的教程。 (注意:这假设您已经在* nix系统上成功安装了GIZA ++-v2。)
从两个数据文件开始,这些数据文件包含已被标记的并行句子,每行一个句子。例如,一对并行的英语-法语文件可能如下所示。
样本1-train.en
I gave him the book .
He read the book .
He loved the book .
样本2-
train.fr
Je lui ai donne/ le livre .
Il a lu le livre .
Il aimait le livre .
通过
plain2snt.out
运行这些文件以获得目标和源词汇文件(*.vcb
)以及句子对文件(*.snt
)。在GIZA ++目录中,运行:
./plain2snt.out TEXT1 TEXT2
其中
TEXT1
和TEXT2
是步骤1中描述的数据文件。这将在与
TEXT1
和TEXT2
相同的目录中产生四个文件(假设它们位于同一目录中):TEXT1_TEXT2.snt
TEXT1.vcb
TEXT2_TEXT1.snt
TEXT2.vcb
vocab文件包含文本中每个单词的唯一(整数)ID(NB:未标记化/残化),单词/字符串以及该字符串出现的次数。这些用单个空格字符分隔。
句子文件包含数字。对于每个句子对,共有三行:第一是句子对在语料库中出现的次数的计数,第二和第三是与空格相对应的单词条目的一串(以空格分隔) vocab文件。根据
*.snt
文件的命名约定,假定第一个文件为源语言,第二个文件为目标语言。例如,在文件TEXT1_TEXT2.snt
中,第一行将是第一个句子对在语料库中出现的次数的计数,第二行将是与TEXT1.vcb
文件中的单词相对应的数字字符串,第三行将是与TEXT2.vcb
文件中的单词相对应的数字字符串。现在,
TEXT1.vcb
,TEXT2.vcb
和两个*.snt
文件中的任何一个都可以用作GIZA ++的输入以产生对齐方式。例如:
./GIZA++ -s TEXT1.vcb -t TEXT2.vcb -c TEXT1_TEXT2.snt
但是请注意,当我尝试运行此命令时,必须将
TEXT1_TEXT2.snt
重命名为名称中没有下划线的名称,以便获得任何适当的输出。关于nlp - 是否有关于giza++的教程? ,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/5752043/
10-10 19:55