机器学习理论系列——线性模型（上）

线性模型

线性是数学中的基本概念，即两个变量按照一定比例增加或减少，用数学符号表达就是 y = a x + b {y = ax+b} y=ax+b。在机器学习中，线性模型（Linear Model）就是试图通过数据学得一个x的线性组合来预测y（下式也称线性模型基本型）
y ^ = w 1 x 1 + w 2 x 2 + ⋯ + w d x d + b \hat{y} = w_1x_1+w_2x_2+\cdots+w_dx_d+b y^=w1x1+w2x2+⋯+wdxd+b
因为我们通过线性模型得到的y并非真实值，是我们预测的，因此我们用 y ^ \hat{y} y^表示，其中的x在现实中可能是与y相关的属性，比如y是电影票房， x 1 x_1 x1可能是演员， x 2 x_2 x2可能是导演， x 3 x_3 x3可能是制作经费等，而前面的 w 1 w_1 w1、 w 2 w_2 w2、 w 3 w_3 w3分别是对应 x i x_i xi的权重，即它们对y的影响程度，如可能这部电影票房受导演因素影响大，那么 x 2 x_2 x2对应的 w 2 w_2 w2就会明显比其他 w w w大

线性回归

线性回归与线性模型

线性回归（Linear Regression）可以理解为一套流程，它的主要目的就是获得最优线性模型来描述两个或多个变量之间的关系

一元和多元线性回归

当我们只用一个x来预测y，就是一元线性回归，也就是找一条直线来拟合数据。模型写成如下形式：
y ^ = w x + b \hat{y} = wx + b y^=wx+b
比如，我们有一组数据画出来的散点图，横坐标是电影制作经费，纵坐标表示销量，一元线性回归就是找到一条直线，并且让这条直线尽可能地拟合图中的数据点

机器学习理论系列——线性模型（上）-LMLPHP

根据这个模型，当我们获得一部新电影的制作成本时，我们可以预测它的票房

当y的值与d个属性(x)相关,即我们想用d个x来预测y，模型写成如下形式：
y ^ = w 1 × x 1 + w 2 × x 2 + . . . + w d × x d + b y ^ = w T x + b \hat{y} = w_1 \times x_1 + w_2 \times x_2 +...+ w_d \times x_d + b \\ \hat{y} = \mathbf{w^{T}} \mathbf{x} + b y^=w1×x1+w2×x2+...+wd×xd+by^=wTx+b
其中 w , x w,x w,x是d维列项量

最小二乘法

那么现在的问题就是我们如何得到 y ^ = w 1 × x 1 + w 2 × x 2 + . . . + w d × x d + b \hat{y} = w_1 \times x_1 + w_2 \times x_2 +...+ w_d \times x_d + b y^=w1×x1+w2×x2+...+wd×xd+b这条直线，我们考虑下面这个情况

机器学习理论系列——线性模型（上）-LMLPHP

如图所示，我们有两条直线，这两条直线好像都可以拟合这些数据点，我们肯定要选择更“优秀”的一条，那么如何判定哪条直线优秀呢？这就引出了我们首先要解决的问题，如何评判一条回归线的好坏，通常我们会用损失函数（Loss Function）来评价

损失函数与均方误差

首先，我们要知道一个统计学概念——“残差”（Residual），它表示真实值与预测值的差距，用公式表示就是
e = y − y ^ e = y - \hat{y} e=y−y^
机器学习理论系列——线性模型（上）-LMLPHP

对于某个 x i x_i xi，我们有对应的实际 y i y_i yi和预测值 y i ^ \hat{y_i} yi^，计算 e i = y i − y i ^ e_i=y_i - \hat{y_i} ei=yi−yi^的值，但此时 e i e_i ei有正有负，如果直接求和，正负抵消就不能正确体现出这个直线的拟合效果，因此我们将其平方后相加，这就是均方误差（Mean Squared Error, MSE），它有着非常好的几何性质，其中的 y − y ^ y-\hat{y} y−y^对应了“欧氏距离”。均方误差也是我们常用于线性回归评价回归线的损失函数
E = ∑ i = 1 n e i 2 = ∑ i = 1 n ( y i − y ^ i ) 2 = ∑ i = 1 n ( y i − ( w ^ x i + b ) ) 2 E = \sum_{i=1}^{n}e_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} \left( y_i - \left(\hat{w} x_i + b \right) \right)^2 E=i=1∑nei2=i=1∑n(yi−y^i)2=i=1∑n(yi−(w^xi+b))2
它的函数图像类似如下
机器学习理论系列——线性模型（上）-LMLPHP

最小二乘与闭式解

既然我们已经得到损失函数或者说均方误差，那接下来我们的任务就是找到那条使得均方误差E最小的那条回归线，其所对应的 w w w和 b b b就是我们想要的，这种基于均方误差最小化来求解模型的方法称为“最小二乘法”（Ordinary Least Squares， OLS）
我们利用数学中求多元函数极值的方法，对E分别求 w w w和 b b b的偏导，可得
∂ E ( w , b ) ∂ w = 2 ( w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i ) ∂ E ( w , b ) ∂ b = 2 ( m b − ∑ i = 1 m ( y i − w x i ) ) \frac{\partial E_{(w,b)}}{\partial w} = 2 \left( w \sum_{i=1}^{m} x_i^2 - \sum_{i=1}^{m} (y_i - b) x_i \right) \\ \frac{\partial E_{(w,b)}}{\partial b} = 2 \left( mb - \sum_{i=1}^{m} (y_i - wx_i) \right) ∂w∂E(w,b)=2(wi=1∑mxi2−i=1∑m(yi−b)xi)∂b∂E(w,b)=2(mb−i=1∑m(yi−wxi))
当两个偏导都为0时，E取得最小，通过计算可以得到
b = 1 m ∑ i = 1 m ( y i − w x i ) w = ∑ i = 1 m y i ( x i − x ˉ ) ∑ i = 1 m x i 2 − 1 m ( ∑ i = 1 m x i ) 2 (详细过程见附录1.1) b = \frac{1}{m} \sum_{i=1}^{m} (y_i - wx_i)\\ w = \frac{\sum_{i=1}^{m} y_i(x_i - \bar{x})}{\sum_{i=1}^{m} x_i^2 - \frac{1}{m}(\sum_{i=1}^{m}x_i)^2}\\ \text{\scriptsize{(详细过程见附录1.1)}} b=m1i=1∑m(yi−wxi)w=∑i=1mxi2−m1(∑i=1mxi)2∑i=1myi(xi−xˉ)(详细过程见附录1.1)
这种在有限的数学运算步骤内可以通过已知的函数和常数来直接求出的解，叫做闭式解(closed-form solution)

现在我们考虑更一般的情况即y由d个属性描述，此时我们试图学得 y ^ = w T x + b \hat{y} = \mathbf{w}^T\mathbf{x} + b y^=wTx+b，为了方便计算我们将w和b放入向量形式的 w ^ = ( w ; b ) T \hat{w} = (\mathbf{w};b)^T w^=(w;b)T,相应的，把所有x表示为一个 m × ( d + 1 ) m \times (d+1) m×(d+1)大小的矩阵X,其中每一行对应一个示例，改行前d个元素对应于示例的d个属性值，最后一个元素恒为1，即
w ^ = ( w 1 ^ , w 2 ^ , w 3 ^ , . . . , w m ^ , b ) T X = ( x 11 x 12 ⋯ x 1 d 1 x 21 x 22 ⋯ x 2 d 1 ⋮ ⋮ ⋱ ⋮ ⋮ x m 1 x m 2 ⋯ x m d 1 ) \hat{w} = \begin{pmatrix} \hat{w_1},\hat{w_2},\hat{w_3},...,\hat{w_m},b \end{pmatrix}^T \\ X = \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1d} & 1 \\ x_{21} & x_{22} & \cdots & x_{2d} & 1 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \end{pmatrix} w^=(w1^,w2^,w3^,...,wm^,b)TX= x11x21⋮xm1x12x22⋮xm2⋯⋯⋱⋯x1dx2d⋮xmd11⋮1
此时
y ^ = X w ^ = ( ∑ j = 1 d w i ^ x i j + b ) (详细过程见附录1.2) \mathbf{\hat{y}} = X \hat{w}=\begin{pmatrix} \sum_{j=1}^d\hat{w_i}x_{ij}+b \end{pmatrix} \\ \text{\scriptsize{(详细过程见附录1.2)}} y^=Xw^=(∑j=1dwi^xij+b)(详细过程见附录1.2)
再把所有对应的y放进向量里， y = ( y 1 ; y 2 ; . . . ; y m ) T \mathbf{y}=(y_1;y_2;...;y_m)^T y=(y1;y2;...;ym)T，于是
E w ^ = ∑ i = 0 m ( y i − y i ^ ) 2 = ( y − X w ^ ) T ( y − X w ^ ) (详细过程见附录1.3) E_{\hat{w}} = \sum_{i=0}^{m}(y_i-\hat{y_i})^2 \\ =(\mathbf{y} -X\hat{w})^{T}(\mathbf{y} - X\hat{w}) \\ \text{\scriptsize{(详细过程见附录1.3)}} Ew^=i=0∑m(yi−yi^)2=(y−Xw^)T(y−Xw^)(详细过程见附录1.3)
现在的目标是求 E w ^ E_{\hat{w}} Ew^的最小值，利用矩阵求导的知识，得到
∂ E w ^ ∂ w ^ = 2 X T ( X w ^ − y ) = 2 X T ( y ^ − y ) (详细过程见附录1.4) \frac{\partial E_{\hat{w}}}{\partial \hat{w}} = 2 X^T (X \hat{w} - \mathbf{y}) =2X^T (\mathbf{\hat{y}} - \mathbf{y}) \\ \text{\scriptsize{(详细过程见附录1.4)}} ∂w^∂Ew^=2XT(Xw^−y)=2XT(y^−y)(详细过程见附录1.4)
令上式为0可得 w ^ \hat{w} w^最优的闭式解，，但由于涉及矩阵逆的运算，会变得比较复杂，下面我们做一个简单讨论。当 X T X X^{T}X XTX为满秩矩阵或正定矩阵时，可得
w ^ = ( X T X ) − 1 X T y \mathbf{\hat{w}} = (\mathbf{X^T} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} w^=(XTX)−1XTy
但是，现实任务中 X T X X^{T}X XTX往往不是满秩矩阵。例如在许多任务中我们会遇到大量的变量，导致 X X X的列数多于行数，此时能解出多个 w ^ \hat{w} w^，它们均能使均方误差最小，这时我们如何选择呢，常见的方法是引入正则化（Regularization）

正则化

为什么引入正则化

我们考虑这种情况下面这种情况
机器学习理论系列——线性模型（上）-LMLPHP
我们得到的模型确实经过了所有的点，E也是最小的，但这是我们想要的结果吗，答案是否定的，因为它在训练数据上表现太好，它的泛化能力太差，一但遇到不同于训练数据的点，它的结果会非常差，此时我们需要增加一个增加惩罚项来防止过拟合，这样学得模型（即所对应的 w ^ \hat{w} w^）才是我们想要的,这个添加惩罚因子的方式就是正则化

L 1 L^1 L1， L 2 L^2 L2正则化

我们首先讲一下矩阵的范数，假设 x \mathbf{x} x是一个向量，它的 L p L^{p} Lp范数定义为
∣ ∣ x ∣ ∣ p = ( ∑ i ( x i ) p ) 1 p ||\mathbf{x}||_p = (\sum_i(x_i)^p)^\frac{1}{p} ∣∣x∣∣p=(i∑(xi)p)p1
p=1时为 L 1 L_1 L1范数，p=2时为 L 2 L_2 L2范数，在目标函数后添加一个系数的惩罚项时正则化的常用方式，为了防止系数过大让模型复杂，添加正则化项之后的目标函数为
KaTeX parse error: Got function '\hat' with no arguments as subscript at position 10: \bar{E}_\̲h̲a̲t̲{w} = E_\hat{w}…
L 1 L^1 L1正则化化时对应的为 L 1 L_1 L1范数， L 2 L^2 L2正则化时对应为 L 2 L_2 L2范数，那么这这两个正则化有什么作用呢，如下图， L 1 , L 2 L^1,L^2 L1,L2正则项的图分别是一个矩形和圆形
接着我们将我们把代价函数（包括正则项）整个画出来，可以直观的理解为，我们最小化损失函数就是求蓝圈+红圈的和的最小值，而这个值通在很多情况下是两个曲面相交的地方。
机器学习理论系列——线性模型（上）-LMLPHP
L 1 L^1 L1正则化的作用是使得大部分模型参数的值等于0，这样一来，当模型训练好后，这些权值等于0的特征可以省去，可以方便选出重要的属性特征

L 2 L^2 L2正则化对于绝对值较大的权重予以很重的惩罚，对于绝对值很小的权重予以非常非常小的惩罚，当权重绝对值趋近于0时，基本不惩罚，对于绝对值大的权重予以很重的惩罚，可以避免权重过重导致过拟合

因此 L 1 L^1 L1正则化适用于特征选择， L 2 L^2 L2正则化适用于防止模型过拟合

梯度下降

对于计算机，它不能直接算出 ∂ E ^ ∂ w ^ = 0 \frac{\partial \hat{E}}{\partial \hat{w}} = 0 ∂w^∂E^=0的值，因此我们需要一种方法使得计算机能够找到最优解，这时我们就需要使用梯度下降的方法

什么是梯度下降

梯度就是导数，梯度下降法就是一种通过求目标函数的导数来寻找目标函数最小化的方法。梯度下降目的是找到目标函数最小化时的取值所对应的自变量的值，在实现上，常常使用迭代法，即从一个初始点开始，反复使用某种规则从移动到下一个点，构造这样一个数列，直到收敛到梯度为0的点处

我们假设这样一个场景，假设我们在山上，想要最快速度下山(我们工具齐全，不会摔死)，但是我们只能看到眼前的路，无法看到之后的路，那么想要快速下山，我们就要以当前的所处的位置为基准，寻找这个位置最陡峭的地方，然后朝着山的高度下降的方向走，然后每走一段距离，都反复采用同一个方法，最后就能成功的抵达山谷
机器学习理论系列——线性模型（上）-LMLPHP
我们每走一步，就要重新查看当前最陡峭的方向是哪，如果走一步测一次，这样分成麻烦，我们可以走一段距离再测一次，但这样有可能会错过比较好的下山路径，这是两难的选择，如果测量的频繁，可以保证下山的方向是绝对正确的，但又非常耗时，如果测量的过少，又有偏离轨道的风险。所以需要找到一个合适的测量方向的频率（多久测量一次），来确保下山的方向不错误，同时又不至于耗时太多，在算法中我们成为步长
机器学习理论系列——线性模型（上）-LMLPHP

算法上的体现

首先，根据数学中方向导数的知识， f ( x , y ) f(x,y) f(x,y)在点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)处沿方向 e l = ( c o s α , c o s β ) e_l=(cosα,cosβ) el=(cosα,cosβ)的方向导数为：
∂ z ∂ l = ∣ ∇ f ( x 0 , y 0 ) ∣ cos ⁡ θ (详细过程见附录1.5) \frac{\partial z}{\partial l} = |\nabla f(x_0, y_0)| \cos \theta \\ \text{\scriptsize{(详细过程见附录1.5)}} ∂l∂z=∣∇f(x0,y0)∣cosθ(详细过程见附录1.5)
为了使目标函数达到局部最小值，只需要沿着这个向量的反方向进行迭代就可以，即在每次迭代中，令：
w ^ 1 = w ^ 1 − α ∂ E ( w ^ ) ∂ w ^ 1 , w ^ 2 = w ^ 2 − α ∂ E ( w ^ ) ∂ w ^ 2 , ⋮ w ^ m = w ^ m − α ∂ E ( w ^ ) ∂ w ^ m . \begin{align*} \hat{w}_1 &= \hat{w}_1 - \alpha \frac{\partial E(\hat{w})}{\partial \hat{w}_1}, \\ \hat{w}_2 &= \hat{w}_2 - \alpha \frac{\partial E(\hat{w})}{\partial \hat{w}_2}, \\ &\vdots \\ \hat{w}_m &= \hat{w}_m - \alpha \frac{\partial E(\hat{w})}{\partial \hat{w}_m}. \end{align*} w^1w^2w^m=w^1−α∂w^1∂E(w^),=w^2−α∂w^2∂E(w^),⋮=w^m−α∂w^m∂E(w^).

附录

(1.1)
b = y ˉ − w x ˉ w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i = 0 ( 带入 b = y ˉ − w x ˉ ) w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − ( y ˉ − w x ˉ ) ) x i = 0 w ∑ i = 1 m x i 2 − ∑ i = 1 m y i x i + ∑ i = 1 m x i y ˉ − ∑ i = 1 m w x ˉ x i = 0 w ( ∑ i = 1 m x i 2 − ∑ i = 1 m x ˉ x i ) = ∑ i = 1 m y i x i − ∑ i = 1 m x i y ˉ w = ∑ i = 1 m y i x i − ∑ i = 1 m x i y ˉ ∑ i = 1 m x i 2 − ∑ i = 1 m x ˉ x i ( y ˉ = 1 m ∑ i = 1 m y i , x ˉ = 1 m ∑ i = 1 m x i ) w = ∑ i = 1 m y i x i − ∑ i = 1 m x i 1 m ∑ i = 1 m y i ∑ i = 1 m x i 2 − ∑ i = 1 m x i 1 m ∑ i = 1 m x i w = ∑ i = 1 m y i ( x i − x ˉ ) ∑ i = 1 m x i 2 − 1 m ( ∑ i = 1 m x i ) 2 \begin{align*} b &= \bar{y} - w\bar{x} \\ w \sum_{i=1}^{m} x_i^2 - \sum_{i=1}^{m} (y_i - b) x_i &= 0 \quad \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad (\text{带入} \, b = \bar{y} - w\bar{x}) \\ w \sum_{i=1}^{m} x_i^2 - \sum_{i=1}^{m} \left(y_i - (\bar{y} - w\bar{x})\right) x_i &= 0 \\ w \sum_{i=1}^{m} x_i^2 - \sum_{i=1}^{m} y_i x_i + \sum_{i=1}^{m} x_i \bar{y} - \sum_{i=1}^{m} w \bar{x} x_i &= 0 \\ w \left(\sum_{i=1}^{m} x_i^2 - \sum_{i=1}^{m} \bar{x} x_i\right) &= \sum_{i=1}^{m} y_i x_i - \sum_{i=1}^{m} x_i \bar{y} \\ w &= \frac{\sum_{i=1}^{m} y_i x_i - \sum_{i=1}^{m} x_i \bar{y}}{\sum_{i=1}^{m} x_i^2 - \sum_{i=1}^{m} \bar{x} x_i} \quad \left(\bar{y} = \frac{1}{m} \sum_{i=1}^{m} y_i , \bar{x} = \frac{1}{m} \sum_{i=1}^{m} x_i \right) \\ w &= \frac{\sum_{i=1}^{m} y_i x_i - \sum_{i=1}^{m} x_i \frac{1}{m} \sum_{i=1}^{m} y_i}{\sum_{i=1}^{m} x_i^2 - \sum_{i=1}^{m} x_i \frac{1}{m} \sum_{i=1}^{m} x_i} \\ w &= \frac{\sum_{i=1}^{m} y_i (x_i - \bar{x})}{\sum_{i=1}^{m} x_i^2 - \frac{1}{m} \left(\sum_{i=1}^{m} x_i\right)^2} \end{align*} bwi=1∑mxi2−i=1∑m(yi−b)xiwi=1∑mxi2−i=1∑m(yi−(yˉ−wxˉ))xiwi=1∑mxi2−i=1∑myixi+i=1∑mxiyˉ−i=1∑mwxˉxiw(i=1∑mxi2−i=1∑mxˉxi)www=yˉ−wxˉ=0(带入b=yˉ−wxˉ)=0=0=i=1∑myixi−i=1∑mxiyˉ=∑i=1mxi2−∑i=1mxˉxi∑i=1myixi−∑i=1mxiyˉ(yˉ=m1i=1∑myi,xˉ=m1i=1∑mxi)=∑i=1mxi2−∑i=1mxim1∑i=1mxi∑i=1myixi−∑i=1mxim1∑i=1myi=∑i=1mxi2−m1(∑i=1mxi)2∑i=1myi(xi−xˉ)

(1.2)
y ^ = X w ^ ( y 1 ^ y 2 ^ ⋮ y m ^ ) = ( x 11 x 12 ⋯ x 1 d 1 x 21 x 22 ⋯ x 2 d 1 ⋮ ⋮ ⋱ ⋮ ⋮ x m 1 x m 2 ⋯ x m d 1 ) ( w 1 ^ w 2 ^ w 3 ^ ⋮ w m ^ b ) ( y 1 ^ y 2 ^ ⋮ y m ^ ) = ( w 1 ^ x 11 + w 2 ^ x 12 + w 3 ^ x 13 + . . . + w d ^ x 1 d + b w 1 ^ x 21 + w 2 ^ x 22 + w 3 ^ x 23 + . . . + w d ^ x 2 d + b ⋮ w 1 ^ x m 1 + w 2 ^ x m 2 + w 3 ^ x m 3 + . . . + w d ^ x m d + b ) \begin{align*} \mathbf{\hat{y}} &= X \hat{w} \\ \begin{pmatrix} \hat{y_1} \\ \hat{y_2} \\ \vdots \\ \hat{y_m} \end{pmatrix} &= \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1d} & 1 \\ x_{21} & x_{22} & \cdots & x_{2d} & 1 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \end{pmatrix}\begin{pmatrix} \hat{w_1} \\ \hat{w_2} \\ \hat{w_3} \\ \vdots \\ \hat{w_m} \\ b \end{pmatrix}\\ \begin{pmatrix} \hat{y_1} \\ \hat{y_2} \\ \vdots \\ \hat{y_m} \end{pmatrix} &= \begin{pmatrix} \hat{w_1}x_{11} + \hat{w_2}x_{12} + \hat{w_3}x_{13} + ... + \hat{w_d}x_{1d} +b \\ \hat{w_1}x_{21} + \hat{w_2}x_{22} + \hat{w_3}x_{23} + ... + \hat{w_d}x_{2d} +b \\ \vdots \\ \hat{w_1}x_{m1} + \hat{w_2}x_{m2} + \hat{w_3}x_{m3} + ... + \hat{w_d}x_{md} +b \\ \end{pmatrix} \end{align*} y^ y1^y2^⋮ym^ y1^y2^⋮ym^ =Xw^= x11x21⋮xm1x12x22⋮xm2⋯⋯⋱⋯x1dx2d⋮xmd11⋮1 w1^w2^w3^⋮wm^b = w1^x11+w2^x12+w3^x13+...+wd^x1d+bw1^x21+w2^x22+w3^x23+...+wd^x2d+b⋮w1^xm1+w2^xm2+w3^xm3+...+wd^xmd+b

(1.3)
( y − X w ^ ) T ( y − X w ^ ) = ( y − y ^ ) T ( y − y ^ ) = ( ( y 1 y 2 ⋮ y m ) − ( y 1 ^ y 2 ^ ⋮ y m ^ ) ) T ( ( y 1 y 2 ⋮ y m ) − ( y 1 ^ y 2 ^ ⋮ y m ^ ) ) = ( y 1 − y 1 ^ y 2 − y 2 ^ ⋯ y m − y m ^ ) ( y 1 − y 1 ^ y 2 − y 2 ^ ⋮ y m − y m ^ ) = ( y 1 − y 1 ^ ) 2 + ( y 2 − y 2 ^ ) 2 + ⋯ + ( y 2 m − y m ^ ) 2 = ∑ i = 0 m ( y i − y i ^ ) 2 \begin{align*} (\mathbf{y} -X\hat{w})^{T}(\mathbf{y} - X\hat{w}) &= (\mathbf{y}- \mathbf{\hat{y}})^T( \mathbf{y}- \mathbf{\hat{y}}) \\ &= (\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{pmatrix} -\begin{pmatrix} \hat{y_1} \\ \hat{y_2} \\ \vdots \\ \hat{y_m} \end{pmatrix} )^T (\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{pmatrix} -\begin{pmatrix} \hat{y_1} \\ \hat{y_2} \\ \vdots \\ \hat{y_m} \end{pmatrix}) \\ &= \begin{pmatrix} y_1 - \hat{y_1} & y_2 - \hat{y_2} & \cdots & y_m - \hat{y_m} \end{pmatrix} \begin{pmatrix} y_1 - \hat{y_1} \\ y_2 - \hat{y_2} \\ \vdots \\ y_m - \hat{y_m} \end{pmatrix} \\ &= (y_1 - \hat{y_1})^2+(y_2 - \hat{y_2})^2+\cdots+(y_2m- \hat{y_m})^2 \\ &= \sum_{i=0}^{m}(y_i-\hat{y_i})^2 \end{align*} (y−Xw^)T(y−Xw^)=(y−y^)T(y−y^)=( y1y2⋮ym − y1^y2^⋮ym^ )T( y1y2⋮ym − y1^y2^⋮ym^ )=(y1−y1^y2−y2^⋯ym−ym^) y1−y1^y2−y2^⋮ym−ym^ =(y1−y1^)2+(y2−y2^)2+⋯+(y2m−ym^)2=i=0∑m(yi−yi^)2

(1.4)
( y − X w ^ ) T ( y − X w ^ ) = y T y − y T X w ^ − w ^ T X T y + w ^ T X T X w ^ 注意 y T X w ^ ， w ^ T X T y 为标量，标量的转置为自身故 w ^ T X T y = ( w ^ T X T y ) T = y T X w ^ ( y − X w ^ ) T ( y − X w ^ ) = y T y − 2 y T X w ^ + w ^ T X T X w ^ ∂ y T y ∂ w ^ = 0 ∂ 2 y T X w ^ ∂ w ^ = 2 X T y ∂ w ^ T X T X w ^ ∂ w ^ = 2 X T X w ^ ∂ E w ^ ∂ w ^ = − 2 X T y + 2 X T X w ^ = 2 X T ( X w ^ − y ) = 2 X T ( y ^ − y ) \begin{align*} (\mathbf{y} -X\hat{w})^{T}(\mathbf{y} - X\hat{w}) &= \mathbf{y}^T \mathbf{y} - \mathbf{y}^T \mathbf{X} \mathbf{\hat{w}} - \mathbf{\hat{w}}^T \mathbf{X}^T \mathbf{y} + \mathbf{\hat{w}}^T \mathbf{X}^T \mathbf{X} \mathbf{\hat{w}} \\ 注意\mathbf{y}^T \mathbf{X} \mathbf{\hat{w}}，\mathbf{\hat{w}}^T & \mathbf{X}^T \mathbf{y}为标量，标量的转置为自身 \\ 故\mathbf{\hat{w}}^T \mathbf{X}^T \mathbf{y} &=(\mathbf{\hat{w}}^T \mathbf{X}^T \mathbf{y})^T = \mathbf{y}^T \mathbf{X} \mathbf{\hat{w}} \\ (\mathbf{y} -X\hat{w})^{T}(\mathbf{y} - X\hat{w}) &= \mathbf{y}^T \mathbf{y} - 2 \mathbf{y}^T \mathbf{X} \mathbf{\hat{w}} + \mathbf{\hat{w}}^T \mathbf{X}^T \mathbf{X} \mathbf{\hat{w}} \\ \frac{\partial \mathbf{y}^T \mathbf{y}}{\partial \hat{w}} &= 0 \\ \frac{\partial 2 \mathbf{y}^T \mathbf{X} \mathbf{\hat{w}}}{\partial \hat{w}} &= 2 \mathbf{X}^T \mathbf{y}\\ \frac{\partial \mathbf{\hat{w}}^T \mathbf{X}^T \mathbf{X} \mathbf{\hat{w}}}{\partial \hat{w}} &= 2 \mathbf{X}^T \mathbf{X} \mathbf{\hat{w}} \\ \frac{\partial E_{\hat{w}}}{\partial \hat{w}} &= - 2 \mathbf{X}^T \mathbf{y} + 2 \mathbf{X}^T \mathbf{X} \mathbf{\hat{w}} = 2 \mathbf{X}^T ( \mathbf{X} \mathbf{\hat{w}}- \mathbf{y})= 2 \mathbf{X}^T (\mathbf{\hat{y}-\mathbf{}y}) \end{align*} (y−Xw^)T(y−Xw^)注意yTXw^，w^T故w^TXTy(y−Xw^)T(y−Xw^)∂w^∂yTy∂w^∂2yTXw^∂w^∂w^TXTXw^∂w^∂Ew^=yTy−yTXw^−w^TXTy+w^TXTXw^XTy为标量，标量的转置为自身=(w^TXTy)T=yTXw^=yTy−2yTXw^+w^TXTXw^=0=2XTy=2XTXw^=−2XTy+2XTXw^=2XT(Xw^−y)=2XT(y^−y)

∂ z ∂ l = lim ⁡ ρ → 0 + f ( x 0 + ρ cos ⁡ α , y 0 + ρ cos ⁡ β ) − f ( x 0 , y 0 ) ρ = f x ( x 0 , y 0 ) cos ⁡ α + f y ( x 0 , y 0 ) cos ⁡ β = ( f x ( x 0 , y 0 ) , f y ( x 0 , y 0 ) ) ⋅ e l = ∣ ∇ f ( x 0 , y 0 ) ∣ cos ⁡ θ \begin{align*} \frac{\partial z}{\partial l} &= \lim_{\rho \to 0^+} \frac{f(x_0 + \rho \cos \alpha, y_0 + \rho \cos \beta) - f(x_0, y_0)}{\rho} \\ &= f_x(x_0, y_0) \cos \alpha + f_y(x_0, y_0) \cos \beta \\ &= (f_x(x_0, y_0), f_y(x_0, y_0)) \cdot \mathbf{e}_l \\ &= |\nabla f(x_0, y_0)| \cos \theta \\ \end{align*} ∂l∂z=ρ→0+limρf(x0+ρcosα,y0+ρcosβ)−f(x0,y0)=fx(x0,y0)cosα+fy(x0,y0)cosβ=(fx(x0,y0),fy(x0,y0))⋅el=∣∇f(x0,y0)∣cosθ

K3njuan