张量流中现有seq2seq模型需要进行哪些更改,以便我可以使用字符单位而不是seq2seq任务的现有单词单位?对于预测性的ext应用程序,这将是一个好的配置吗?
以下功能签名可能需要为此任务进行修改:
def embedding_rnn_seq2seq(encoder_inputs, decoder_inputs, cell,
num_encoder_symbols, num_decoder_symbols,
output_projection=None, feed_previous=False,
dtype=dtypes.float32, scope=None):
除了减少输入输出词汇量之外,实现这种字符级seq2seq模型还需要其他什么参数更改?
最佳答案
我认为如果通过空白分隔训练示例来准备输入数据文件,则可以在Tensorflow中使用现有的seq2seq模型,而无需对基于字符的单位进行任何代码更改:
The quick brown fox.
成为:
T h e _SPACE_ q u i c k _SPACE_ b r o w n _SPACE_ f o x .
这样,您的词汇自然就变成了字符而不是单词。
您可以测试vocab大小,嵌入大小,消除嵌入层等,以查看最适合您的数据的样式。