我在天蓝色的机器学习和评估模型中玩线性回归。
我仍然不确定用于评估的各种指标的含义和显示方式,因此如果我不正确,请多多指教。
平均绝对误差:残差(误差)的平均值。
均方根误差:残差的标准偏差。有了这个,我可以看到我的绝对误差离平均值/中位数有多远。
相对绝对误差:一个百分比值,显示相对误差和绝对误差之间的百分比差。值越低越好,表明差异较小。
相对平方误差:相对于绝对平方的误差平方。不确定相对绝对误差会给我什么。
确定系数:表示输入之间的相关性。 +1或-1表示完全相关,0表示无相关。
直方图显示了各种误差幅度的频率。这显示了很多小错误。频率随着误差值的增加而降低,这表明当与上述较差的指标一起使用时,可能存在某些sku或离群值对模型有较大影响,从而使其准确性降低。
这些定义和假设是否正确?
最佳答案
您在大多数问题上几乎是正确的。为了确保我们使用的是相同的术语,需要一点背景知识:
线性回归使用一些结果变量y
和自变量x1, x2, ..
的数据,并尝试找到最能预测x1, x2, ..
的y
线性组合。建立“最佳线性组合”后,您可以通过多种方式评估拟合的质量(即模型的质量)。您提到的六点都是回归方程质量的关键指标。
运行回归可为您提供多个“成分”。例如,每个观察都将获得结果变量的预测值。 y
的观测值与预测值之间的差称为残差或误差。残差可以为负(如果y
被高估)和为正(如果y
被低估)。残差越接近零越好。但是,什么是“接近”?您提供的指标应该可以对此有所启发。
平均绝对误差:取残差的绝对值并取其平均值。
均方根误差:是残差的标准偏差。这将帮助您了解残差的利差有多大。残差是平方的,因此,高残差比小残差更重要。较低的RMSE是好的。
相对绝对误差:绝对误差占结果变量y
的实际值的一部分。在您的情况下,预测平均比y
的实际值高/低75%。
相对平方误差:平方误差(residual^2
)作为实数值的分数。
测定系数:几乎正确。该范围在0到1之间,可以解释为解释y
时自变量的解释能力。实际上,在您的情况下,自变量可以模拟y
中38.15%的变化。另外,如果只有一个自变量,则该系数等于相关系数的平方。
在几乎所有情况下,均方根误差和确定系数都是最重要的指标。老实说,我从未真正看到过其他指标的报告。
关于r - 评估线性回归(在Microsoft机器学习中,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/43278593/