一.基本原理
利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式
根据线性代数,我们可以定义方程 xw=y,在线性回归问题中,x是我们的样本数据矩阵,y是我们的期望值向量,也就是说,对于线性回归问题,x 和 y 是已知的,我们要解决的问题是,求取最合适的一个向量 w,使得线性方程组能够尽可能满足样本点的线性分布,之后我们就可以利用求得的w,对新的数据点进行预测
二.优缺点
优点
- 简单,存在解析解,快速
缺点
- 对复杂数据拟合不好,容易欠拟合
- 需要处理异常值,对异常值很敏感
三.适用场景
- 房价预测
- 销售额度预测
- 贷款额度预测
- 自变量和因变量之间存在线性关系
- 低维度,而且每一维之间都没有共线性
四.推导
线性回归模型中参数估计的推导过程
五.常见面试题
1.线性回归使用均方误差做损失函数的原理
假设线性回归的预测噪声服从正态分布,可以根据最大似然估计的原理,写出参数分布的似然函数,对其化简后,最大化参数的似然函数等效于最小化均方误差
2.为什么回归任务的损失函数通常是MSE,分类任务的损失函数通常是交叉熵?