X_train
已经使用StandardScaler()
进行了规范化,并且类别列已转换为一种热门编码。
X_train.shape=(32000, 37)
我正在使用以下代码使用梯度下降来计算
w
的值w = np.zeros(len(X_train.columns))
learning_rate = 0.001
for t in range(1000):
Yhat = X.dot(w)
delta = Yhat - Y_train
w = w - learning_rate*X_train.T.dot(delta)
我的
w
向量爆炸(即非常快速地增加),并且w
的每个条目都变为NaN
。我尝试将纪元数减少到10、15、20等,结果发现w
的每个元素都是发散而不是收敛。我尝试使用正态方程式,在这种情况下
w
确实很好(为了方便阅读,添加了换行符):w_found_using_normal_eqns = [ 3.53175449e-14 1.27924991e-14 -5.42441539e-14
9.91098366e-16 -2.31752259e-14 -6.21205773e-13 1.66139358e-13
2.72739782e-13 -1.65076881e-13 -1.25280166e-14 -1.98905983e-14 3.78837632e-13
-1.39424696e-12 -6.48511452e-15 1.58136412e-14 1.39778439e-12
-1.06142667e-14 3.00624557e-14 -1.70159700e-15 -6.91500349e-15 -4.04842208e-15
2.37516654e-16 3.25211677e+01 -2.86074823e+01 -2.86074823e+01
-2.86074823e+01 -2.86074823e+01 -2.86074823e+01 -2.86074823e+01 -2.86074823e+01
3.55024823e+01 3.55024823e+01 3.55024823e+01 3.55024823e+01
3.55024823e+01 3.55024823e+01 3.55024823e+01]
如果我使用普通方程式求解
r^2
,则1
错误为w
。 最佳答案
梯度下降权重更新公式通过训练集大小进行归一化。
在最后一行中,您需要将学习率除以训练集大小。
修复代码:
w = w - (learning_rate/X_train.shape) * X_train.T.dot(delta)
关于python - 这种梯度下降算法有什么问题?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/51706714/