如何使用TensorFlow堆叠LSTM图层

2018-06-11 04:27:11

我拥有的是以下内容，我相信这是一个隐藏LSTM层的网络：

# Parameters
learning rate = 0.001
training_iters = 100000
batch_size = 128
display_step = 10

# Network Parameters
n_input = 13
n_steps = 10
n_hidden = 512
n_classes = 13

# tf Graph input
x = tf.placeholder("float", [None, n_steps, n_input])
y = tf.placeholder("float", [None, n_classes])

# Define weights
weights = {
    'out' : tf.Variable(tf.random_normal([n_hidden, n_classes]))
}
biases = {
    'out' : tf.Variable(tf.random_normal([n_classes]))
}

但是，我正在尝试使用TensorFlow来构建一个LSTM网络来预测功耗。我一直在寻找一个很好的例子，但我找不到任何带有2个隐藏LSTM图层的模型。以下是我想要构建的模型：

1个输入层，1个输出层，2个隐藏LSTM层（每层512个神经元），时间步长（序列长度）：10

任何人都可以指导我使用TensorFlow来构建它？（从定义权重，构建输入形状，训练，预测，优化器或成本函数的使用等），任何帮助将不胜感激。

提前感谢你！

下面是我如何在GRU单元翻译模型中做到这一点。您可以用LSTM替换GRU。只需使用tf.nn.rnn_cell.MultiRNNCell和它应该包装的多个单元的列表就可以了。在下面的代码中，我手动展开它，但也可以将它传递给tf.nn.dynamic_rnn或tf.nn.rnn 。

y = input_tensor
with tf.variable_scope('encoder') as scope:
    rnn_cell = rnn.MultiRNNCell([rnn.GRUCell(1024) for _ in range(3)])
    state = tf.zeros((BATCH_SIZE, rnn_cell.state_size))
    output = [None] * TIME_STEPS
    for t in reversed(range(TIME_STEPS)):
        y_t = tf.reshape(y[:, t, :], (BATCH_SIZE, -1))
        output[t], state = rnn_cell(y_t, state)
        scope.reuse_variables()
    y = tf.pack(output, 1)

首先，您需要一些占位符来放置您的训练数据（一批）

x_input = tf.placeholder(tf.float32, [batch_size, truncated_series_length, 1])
y_output = tf.placeholder(tf.float32, [batch_size, truncated_series_length, 1])

LSTM需要一个状态，它由两个组件组成，隐藏状态和单元状态，非常好的指导：https://arxiv.org/pdf/1506.00019.pdf。对于LSTM中的每个图层，您都有一个单元格状态和一个隐藏状态。

问题在于Tensorflow将它存储在您无法发送到占位符的LSTMStateTuple中。所以你需要将它存储在张量中，然后将它解包成一个元组：

state_placeholder = tf.placeholder(tf.float32, [num_layers, 2, batch_size, state_size])

l = tf.unpack(state_placeholder, axis=0)
rnn_tuple_state = tuple(
    [tf.nn.rnn_cell.LSTMStateTuple(l[idx][0], l[idx][1])
     for idx in range(num_layers)]
)

然后，您可以使用内置的Tensorflow API创建堆叠的LSTM图层。

cell = tf.nn.rnn_cell.LSTMCell(state_size, state_is_tuple=True)
cell = tf.nn.rnn_cell.MultiRNNCell([cell]*num_layers, state_is_tuple=True)
outputs, state = tf.nn.dynamic_rnn(cell, x_input, initial_state=rnn_tuple_state)

从这里你与输出继续计算logits再损失关于y_inputs 。

然后使用sess.run命令运行每个批处理，并截断反向传播（请sess.run http://r2rt.com/styles-of-truncated-backpropagation.html）

 init_state = np.zeros((num_layers, 2, batch_size, state_size))

...current_state... = sess.run([...state...], feed_dict={x_input:batch_in, state_placeholder:current_state ...})
current_state = np.array(current_state)

在再次喂食之前，您必须将状态转换为一个numpy数组。

也许最好使用像Tflearn或凯拉斯这样的图书馆？

链接地址: http://www.djcxy.com/p/32125.html

上一篇: how to stack LSTM layers using TensorFlow

下一篇: how can I improve my LSTM code on tensorflow?