nlp - 是否有关于giza++的教程？

Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。

想改善这个问题吗？更新问题，以使溢出。

5年前关闭。

on-topic

其“自述文件”中的Urls无效（ Improve this question 和http://www.fjoch.com/mkcls.html）。有没有关于giza ++的好教程？还是有一些备有完整文档的替代品？

最佳答案

以下摘录自我正在上一堂课的教程。（注意：这假设您已经在* nix系统上成功安装了GIZA ++-v2。）

从两个数据文件开始，这些数据文件包含已被标记的并行句子，每行一个句子。例如，一对并行的英语-法语文件可能如下所示。

样本1-train.en

I gave him the book .
He read the book .
He loved the book .

样本2-train.fr

Je lui ai donne/ le livre .
Il a lu le livre .
Il aimait le livre .

通过plain2snt.out运行这些文件以获得目标和源词汇文件（*.vcb）以及句子对文件（*.snt）。

在GIZA ++目录中，运行：

./plain2snt.out TEXT1 TEXT2

其中TEXT1和TEXT2是步骤1中描述的数据文件。

这将在与TEXT1和TEXT2相同的目录中产生四个文件（假设它们位于同一目录中）：

TEXT1_TEXT2.snt
TEXT1.vcb
TEXT2_TEXT1.snt
TEXT2.vcb

vocab文件包含文本中每个单词的唯一（整数）ID（NB：未标记化/残化），单词/字符串以及该字符串出现的次数。这些用单个空格字符分隔。

句子文件包含数字。对于每个句子对，共有三行：第一是句子对在语料库中出现的次数的计数，第二和第三是与空格相对应的单词条目的一串（以空格分隔） vocab文件。根据*.snt文件的命名约定，假定第一个文件为源语言，第二个文件为目标语言。例如，在文件TEXT1_TEXT2.snt中，第一行将是第一个句子对在语料库中出现的次数的计数，第二行将是与TEXT1.vcb文件中的单词相对应的数字字符串，第三行将是与TEXT2.vcb文件中的单词相对应的数字字符串。

现在，TEXT1.vcb，TEXT2.vcb和两个*.snt文件中的任何一个都可以用作GIZA ++的输入以产生对齐方式。

例如：

./GIZA++ -s TEXT1.vcb -t TEXT2.vcb -c TEXT1_TEXT2.snt

但是请注意，当我尝试运行此命令时，必须将TEXT1_TEXT2.snt重命名为名称中没有下划线的名称，以便获得任何适当的输出。

关于nlp - 是否有关于giza++的教程？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/5752043/

Snt

nlp - 是否有关于giza++的教程？