如何加速张量流速的训练速度?
现在基于tensorflow-char-rnn我开始一个word-rnn项目来预测下一个单词。 但是我发现我的火车数据集的速度太慢了。 这是我的训练细节:
机器细节:
在我的测试中,训练数据1纪元的时间需要17天! 这实在太慢了,然后我将seq2seq.rnn_decoder更改为tf.nn.dynamic_rnn,但时间仍然是17天。
我想找到太慢的原因是由我的代码造成的,或者它一直很慢? 因为我听到一些传言说Tensorflow比其他DL框架慢。
这是我的模型代码:
class SeqModel():
def __init__(self, config, infer=False):
self.args = config
if infer:
config.batch_size = 1
config.seq_length = 1
if config.model == 'rnn':
cell_fn = rnn_cell.BasicRNNCell
elif config.model == 'gru':
cell_fn = rnn_cell.GRUCell
elif config.model == 'lstm':
cell_fn = rnn_cell.BasicLSTMCell
else:
raise Exception("model type not supported: {}".format(config.model))
cell = cell_fn(config.hidden_size)
self.cell = cell = rnn_cell.MultiRNNCell([cell] * config.num_layers)
self.input_data = tf.placeholder(tf.int32, [config.batch_size, config.seq_length])
self.targets = tf.placeholder(tf.int32, [config.batch_size, config.seq_length])
self.initial_state = cell.zero_state(config.batch_size, tf.float32)
with tf.variable_scope('rnnlm'):
softmax_w = tf.get_variable("softmax_w", [config.hidden_size, config.vocab_size])
softmax_b = tf.get_variable("softmax_b", [config.vocab_size])
embedding = tf.get_variable("embedding", [config.vocab_size, config.hidden_size])
inputs = tf.nn.embedding_lookup(embedding, self.input_data)
outputs, last_state = tf.nn.dynamic_rnn(cell, inputs, initial_state=self.initial_state)
# [seq_size * batch_size, hidden_size]
output = tf.reshape(tf.concat(1, outputs), [-1, config.hidden_size])
self.logits = tf.matmul(output, softmax_w) + softmax_b
self.probs = tf.nn.softmax(self.logits)
self.final_state = last_state
loss = seq2seq.sequence_loss_by_example([self.logits],
[tf.reshape(self.targets, [-1])],
[tf.ones([config.batch_size * config.seq_length])],
config.vocab_size)
self.cost = tf.reduce_sum(loss) / config.batch_size / config.seq_length
self.lr = tf.Variable(0.0, trainable=False)
tvars = tf.trainable_variables()
grads, _ = tf.clip_by_global_norm(tf.gradients(self.cost, tvars),
config.grad_clip)
optimizer = tf.train.AdamOptimizer(self.lr)
self.train_op = optimizer.apply_gradients(zip(grads, tvars))
这是训练期间的GPU负载
非常感谢。
正如你所提到的batch_size调整真的很重要,它可以导致令人印象深刻的加速,但检查你的困惑保持相关。
监控您的GPU活动,您可以提供有关潜在I / O瓶颈的提示。
最重要的是,使用采样的softmax而不是常规的softmax会更快。 这将需要您使用[config.vocab_size, config.hidden_size]
权重矩阵,而不是您[config.hidden_size, config.vocab_size]
。 这绝对是我的观点。
希望这可以帮助。
pltrdy
您可以加快培训的另一种可能方式,以及您未使用GPU的可能原因是您正在使用占位符。 如果使用Tensorflow <1.2,则应使用队列,否则使用tf.contrib.data模块。
https://www.tensorflow.org/programmers_guide/threading_and_queues
链接地址: http://www.djcxy.com/p/32119.html