python - 输入到“序列到序列”模型的“解码器”应该是什么？

我正在开发用于文本生成的序列到序列模型（paper）。我没有在解码器端使用“教师强制”，即在时间t1解码器的输出被馈送到解码器的输入。

现在，实际上，解码器（LSTM / GRU）的输出通过Dense层，该层随后会生成单词的索引，该索引被视为解码器的输出。

但是，为了将输出馈送到下一层，我们应该将h_t（即解码器的输出/解码器的隐藏状态）馈送到下一步，还是下一个词的词嵌入是正确的选择？

最佳答案

简短的答案是：可能两者都有，但是隐藏状态h_t是必不可少的。

要求提供隐藏状态h_t，以将有关整个句子（而不仅仅是前一个单词）的信息从一个解码器层传递到下一个解码器层。

馈送所选单词的嵌入不是必需的，但这可能是一个好主意。这使解码器可以根据被迫做出的先前选择来进行调节。

关于python - 输入到“序列到序列”模型的“解码器”应该是什么？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/49611510/