现在以tensorflow-char-rnn为基础,我启动了一个单词rnn项目来预测下一个单词。
但是我发现火车数据集中的速度太慢了。这是我的培训详细信息:

  • 培训数据大小:10亿个单词
  • 词汇量:75万
  • RNN模型:lstm
  • RNN层:2
  • 单元格大小:200
  • Seq长度:20
  • 批处理大小:40(太大的批处理大小将导致OOM异常)

  • 机器细节:
  • Amazon p2实例
  • 1核心K80 GPU
  • 16G视频存储器
  • 4核CPU
  • 60G内存

  • 在我的测试中,训练数据的时间为1个纪元需要17天!
    确实太慢了,然后我将seq2seq.rnn_decoder更改为tf.nn.dynamic_rnn,但是时间仍然是17天。

    我想找到太慢的原因是我的代码导致的,还是一直如此慢?
    因为我听到一些谣言说Tensorflow rnn比其他DL Framework慢。

    这是我的模型代码:
    class SeqModel():
    def __init__(self, config, infer=False):
        self.args = config
        if infer:
            config.batch_size = 1
            config.seq_length = 1
    
        if config.model == 'rnn':
            cell_fn = rnn_cell.BasicRNNCell
        elif config.model == 'gru':
            cell_fn = rnn_cell.GRUCell
        elif config.model == 'lstm':
            cell_fn = rnn_cell.BasicLSTMCell
        else:
            raise Exception("model type not supported: {}".format(config.model))
    
        cell = cell_fn(config.hidden_size)
    
        self.cell = cell = rnn_cell.MultiRNNCell([cell] * config.num_layers)
    
        self.input_data = tf.placeholder(tf.int32, [config.batch_size, config.seq_length])
        self.targets = tf.placeholder(tf.int32, [config.batch_size, config.seq_length])
        self.initial_state = cell.zero_state(config.batch_size, tf.float32)
    
        with tf.variable_scope('rnnlm'):
            softmax_w = tf.get_variable("softmax_w", [config.hidden_size, config.vocab_size])
            softmax_b = tf.get_variable("softmax_b", [config.vocab_size])
    
            embedding = tf.get_variable("embedding", [config.vocab_size, config.hidden_size])
            inputs = tf.nn.embedding_lookup(embedding, self.input_data)
    
    
        outputs, last_state = tf.nn.dynamic_rnn(cell, inputs, initial_state=self.initial_state)
    
        # [seq_size * batch_size, hidden_size]
        output = tf.reshape(tf.concat(1, outputs), [-1, config.hidden_size])
    
        self.logits = tf.matmul(output, softmax_w) + softmax_b
        self.probs = tf.nn.softmax(self.logits)
    
        self.final_state = last_state
    
    
        loss = seq2seq.sequence_loss_by_example([self.logits],
                                                [tf.reshape(self.targets, [-1])],
                                                [tf.ones([config.batch_size * config.seq_length])],
                                                config.vocab_size)
        self.cost = tf.reduce_sum(loss) / config.batch_size / config.seq_length
    
        self.lr = tf.Variable(0.0, trainable=False)
        tvars = tf.trainable_variables()
        grads, _ = tf.clip_by_global_norm(tf.gradients(self.cost, tvars),
                                          config.grad_clip)
        optimizer = tf.train.AdamOptimizer(self.lr)
        self.train_op = optimizer.apply_gradients(zip(grads, tvars))
    

    Here is the GPU load during the training

    非常感谢。

    最佳答案

    正如您提到的 batch_size 确实很重要,它可以带来令人印象深刻的加速效果,但请确保您的困惑保持相关性。

    监视GPU事件可以为您提供有关潜在I/O瓶颈的提示。

    最重要的是,使用采样的softmax 代替常规的softmax更快。这将要求您使用[config.vocab_size, config.hidden_size]权重矩阵,而不是[config.hidden_size, config.vocab_size]。这绝对是我的观点。

    希望这可以帮助。
    pltrdy

    关于tensorflow - 如何加快 tensorflow 的训练速度?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41096896/

    10-13 04:43