脚踏实地的大梦想家

脚踏实地的大梦想家

机器学习领域,大多数任务最终的目标都是预测。而预测的结果大致分为两大类,一种是需要估计连续数值的回归预测,另一种是确定离散类别的分类预测。本节博文将围绕线性回归内容。

线性回归基本元素

基本名词

线性回归中,自变量 x \mathbf{x} x 与因变量 y y y 之间的关系是线性的, y y y 可以表示为 x \mathbf{x} x 中元素的加权和。

开发一个线性回归模型,我们需要包含训练集与测试集的数据集。在数据集中,每行数据称为样本或数据样本,结果 y y y 值称为标签或目标,自变量因素则称为特征。

自变量输入描述为: x ( i ) = [ x 1 ( i ) , x 2 ( i ) , . . . ] T \mathbf{x}^{(i)}=[x_1^{(i)}, x_2^{(i)},...]^T x(i)=[x1(i),x2(i),...]T,标签表示为 y ( i ) y^{(i)} y(i);其中每个 x x x 为一个自变量特征。


线性模型

假设想要构建一个简单的线性模型,通过房间的面积和房龄预测一个房屋的价格:
p r i c e = w a r e a ⋅ a r e a + w a g e ⋅ a g e + b price = w_{area} \cdot area + w_{age} \cdot age + b price=wareaarea+wageage+b

类似于我们之前学习的二元一次方程, w a r e a w_{area} warea w a g e w_{age} wage 称为权重,权重决定了每个特征对我们预测值的影响。 b b b 称为偏置、偏移量或者截距。偏置是指所有特征都为 0 时,预测值应该为多少。线性函数模型通过加权来对特征进行线性变换,通过偏置项来进行平移操作。

因此,带有权重和偏置的标准线性模型的数学表达式可以写作:
y ^ = w 1 ⋅ x 1 + . . . + w d ⋅ x d + b \hat y = w_1 \cdot x_1 + ... + w_d \cdot x_d + b y^=w1x1+...+wdxd+b

可以简洁表达为:
y ^ = w T x + b \hat y = \mathbf{w^Tx}+b y^=wTx+b

上述表达式中,向量 x \mathbf{x} x 对应于单个数据样本的特征,矩阵 X \mathbf{X} X 表示数据集矩阵,其中每一行代表一个样本,每一列表示一种特征。

02-18 06:21