如果在 True 中的任何线性模型中将归一化参数设置为 sklearn.linear_model ,是否在评分步骤中应用归一化?

例如:

from sklearn import linear_model
from sklearn.datasets import load_boston

a = load_boston()

l = linear_model.ElasticNet(normalize=False)
l.fit(a["data"][:400], a["target"][:400])
print l.score(a["data"][400:], a["target"][400:])
# 0.24192774524694727

l = linear_model.ElasticNet(normalize=True)
l.fit(a["data"][:400], a["target"][:400])
print l.score(a["data"][400:], a["target"][400:])
# -2.6177006348389167

在这种情况下,当我们设置normalize=True时,我们看到了预测能力的下降,并且我无法分辨这是否只是不应用规范化的score函数的产物,或者规范化的值是否导致model性能下降。

最佳答案

归一化确实适用于拟合数据和预测数据。您看到如此不同结果的原因是,波士顿房屋价格数据集中的列范围差异很大:

>>> from sklearn.datasets import load_boston
>>> boston = load_boston()
>>> boston.data.std(0)
array([  8.58828355e+00,   2.32993957e+01,   6.85357058e+00,
         2.53742935e-01,   1.15763115e-01,   7.01922514e-01,
         2.81210326e+01,   2.10362836e+00,   8.69865112e+00,
         1.68370495e+02,   2.16280519e+00,   9.12046075e+01,
         7.13400164e+00])

这意味着ElasticNet中的正则化项对归一化数据与未归一化数据的影响非常不同,这就是为什么结果不同的原因。
您可以通过将正则化强度(alpha)设置为一个非常小的数字来确认这一点,例如1E-8。在这种情况下,正则化的影响很小,并且归一化不再影响预测结果。

关于python - sci-kit 中的归一化学习 linear_models,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/33246316/

10-12 18:04