我已经与现有教程进行了广泛的比较,但我不明白为什么我的权重没有更新。这是返回更新列表的函数:

def get_updates(cost, params, learning_rate):
updates = []
for param in params:
    updates.append((param, param - learning_rate * T.grad(cost, param)))
return updates

它是在任何类之外的顶层定义的。这是每个参数的标准梯度下降。这里的“params”参数作为 mlp.params 输入,它只是每一层的参数列表的串联列表。我删除了除了逻辑回归层之外的每一层,以找出我的成本没有减少的原因。以下是MLP的构造函数中mlp.params的定义。它遵循每个层的定义及其各自的参数列表。
self.params = []
for layer in self.layers:
    self.params += layer.params

以下是 train 函数,我在每个 epoch 期间为每个 minibatch 调用它:
train = theano.function([minibatch_index], cost,
                    updates=get_updates(cost, mlp.params, learning_rate),
                    givens= {
                        x: train_set_x[minibatch_index * batch_size : (minibatch_index + 1) * batch_size],
                        y: train_set_y[minibatch_index * batch_size : (minibatch_index + 1) * batch_size]
                    })

如果您需要更多详细信息,可以在此处获得整个文件:http://pastebin.com/EeNmXfGD

我不知道有多少人在使用 Theano(好像不是很多);如果你读到这里,谢谢。

修正:我已经确定我不能使用平均平方误差作为成本函数。在用负对数似然替换它后,它照常工作。

最佳答案

这种行为是由几件事引起的,但归结为未正确计算成本。在您的实现中,LogisticRegression 层的输出是每个输入数字的预测类(通过 argmax 操作获得),您取它与预期预测之间的平方差。

这将为您的模型中的任何参数提供 0 的梯度,因为 argmax(预测类)的输出梯度与 argmax(类概率)的输入的梯度将为 0。

相反,LogisticRegression 应该输出类的概率:

def output(self, input):
    input = input.flatten(2)
    self.p_y_given_x = T.nnet.softmax(T.dot(input, self.W) + self.b)
    return self.p_y_given_x

然后在 MLP 类中,您计算​​成本。您可以在每个类的所需概率与模型计算的概率之间使用均方误差,但人们倾向于使用预期类的负对数似然,您可以在 MLP 类中实现它:
def neg_log_likelihood(self, x, y):
    p_y_given_x = self.output(x)
    return -T.mean(T.log(p_y_given_x)[T.arange(y.shape[0]), y])

然后你可以使用这个函数来计算你的成本和模型训练:
cost = mlp.neg_log_likelihood(x_, y)

一些额外的事情:
  • 在第 215 行,当您打印成本时,您将其格式化为整数值,但它是一个浮点值;这将失去监测的精度。
  • 通常不建议像在 LogisticRegression 类中那样将所有权重初始化为 0。权重应与其原始值不同,以帮助打破对称性
  • 关于Python + Theano : Logistic regression weights do not update,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31198353/

    10-10 09:25