张量流中现有seq2seq模型需要进行哪些更改,以便我可以使用字符单位而不是seq2seq任务的现有单词单位?对于预测性的ext应用程序,这将是一个好的配置吗?

以下功能签名可能需要为此任务进行修改:

def embedding_rnn_seq2seq(encoder_inputs, decoder_inputs, cell,
                          num_encoder_symbols, num_decoder_symbols,
                          output_projection=None, feed_previous=False,
                          dtype=dtypes.float32, scope=None):


除了减少输入输出词汇量之外,实现这种字符级seq2seq模型还需要其他什么参数更改?

最佳答案

我认为如果通过空白分隔训练示例来准备输入数据文件,则可以在Tensorflow中使用现有的seq2seq模型,而无需对基于字符的单位进行任何代码更改:

The quick brown fox.


成为:

T h e _SPACE_ q u i c k _SPACE_ b r o w n _SPACE_ f o x .


这样,您的词汇自然就变成了字符而不是单词。

您可以测试vocab大小,嵌入大小,消除嵌入层等,以查看最适合您的数据的样式。

09-25 21:16