r - 评估线性回归(在Microsoft机器学习中

我在天蓝色的机器学习和评估模型中玩线性回归。

我仍然不确定用于评估的各种指标的含义和显示方式，因此如果我不正确，请多多指教。

平均绝对误差：残差（误差）的平均值。
均方根误差：残差的标准偏差。有了这个，我可以看到我的绝对误差离平均值/中位数有多远。
相对绝对误差：一个百分比值，显示相对误差和绝对误差之间的百分比差。值越低越好，表明差异较小。
相对平方误差：相对于绝对平方的误差平方。不确定相对绝对误差会给我什么。
确定系数：表示输入之间的相关性。 +1或-1表示完全相关，0表示无相关。
直方图显示了各种误差幅度的频率。这显示了很多小错误。频率随着误差值的增加而降低，这表明当与上述较差的指标一起使用时，可能存在某些sku或离群值对模型有较大影响，从而使其准确性降低。

这些定义和假设是否正确？

最佳答案

您在大多数问题上几乎是正确的。为了确保我们使用的是相同的术语，需要一点背景知识：

线性回归使用一些结果变量y和自变量x1, x2, ..的数据，并尝试找到最能预测x1, x2, ..的y线性组合。建立“最佳线性组合”后，您可以通过多种方式评估拟合的质量（即模型的质量）。您提到的六点都是回归方程质量的关键指标。

运行回归可为您提供多个“成分”。例如，每个观察都将获得结果变量的预测值。 y的观测值与预测值之间的差称为残差或误差。残差可以为负（如果y被高估）和为正（如果y被低估）。残差越接近零越好。但是，什么是“接近”？您提供的指标应该可以对此有所启发。

平均绝对误差：取残差的绝对值并取其平均值。
均方根误差：是残差的标准偏差。这将帮助您了解残差的利差有多大。残差是平方的，因此，高残差比小残差更重要。较低的RMSE是好的。
相对绝对误差：绝对误差占结果变量y的实际值的一部分。在您的情况下，预测平均比y的实际值高/低75％。
相对平方误差：平方误差（residual^2）作为实数值的分数。
测定系数：几乎正确。该范围在0到1之间，可以解释为解释y时自变量的解释能力。实际上，在您的情况下，自变量可以模拟y中38.15％的变化。另外，如果只有一个自变量，则该系数等于相关系数的平方。

在几乎所有情况下，均方根误差和确定系数都是最重要的指标。老实说，我从未真正看到过其他指标的报告。

关于r - 评估线性回归(在Microsoft机器学习中，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/43278593/