我正在开发用于文本生成的序列到序列模型(paper)。我没有在解码器端使用“教师强制”,即在时间t1解码器的输出被馈送到解码器的输入。
现在,实际上,解码器(LSTM / GRU)的输出通过Dense层,该层随后会生成单词的索引,该索引被视为解码器的输出。
但是,为了将输出馈送到下一层,我们应该将h_t(即解码器的输出/解码器的隐藏状态)馈送到下一步,还是下一个词的词嵌入是正确的选择?
最佳答案
简短的答案是:可能两者都有,但是隐藏状态h_t是必不可少的。
要求提供隐藏状态h_t,以将有关整个句子(而不仅仅是前一个单词)的信息从一个解码器层传递到下一个解码器层。
馈送所选单词的嵌入不是必需的,但这可能是一个好主意。这使解码器可以根据被迫做出的先前选择来进行调节。
关于python - 输入到“序列到序列”模型的“解码器”应该是什么?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/49611510/