一、牛顿法

对于优化函数\(f(x)\),在\(x_0\)处泰勒展开,

\[f(x)=f(x_0)+f^{'}(x_0)(x-x_0)+o(\Delta x)
\]

去其线性部分,忽略高阶无穷小,令\(f(x) = 0\)得:

\[x=x_0-\frac{f(x_0)}{f^{'}(x_0)}
\]

得牛顿法迭代公式:

\[x^{k+1}=x^k-\frac{f(x^k)}{f^{'}(x^k)}
\]

对于最优化问题

令导数等于零,得最优解,所以迭代公式为

\[x^{k+1}=x^k-\frac{\nabla f(x^k)}{\frac{\partial^2f(x^k)}{\partial x_i\partial x_j}}
\]

即:

\[x^{k+1}=x^k-H_k^{-1}\nabla f(x^k)
\]

其中\(H_k\)为Hesse矩阵,表示函数二阶偏导数矩阵

上述方法每次迭代都需要求Hesse矩阵,比较复杂

二、拟牛顿法

解决Hesse矩阵问题

对于优化函数的泰勒展开公式,求导数得:

\[\nabla f(x)=\nabla f(x^k)+H_k(x-x^k)
\]

令\(y_k=\nabla f(x^{k+1})-\nabla f(x^k)\),\(\delta_k=x^{k+1}-x^k\),则:

\[y_k=H_k\delta_k
\]

通过上式,可以依靠之前的\(f(x^k),f(x^{k-1}),x^k,x^{k-1}\)的数据计算Hesse矩阵,具体算法有DFP算法,BFGS算法。

三、L-BFGS算法

由于BFGS算法存在存储数据过多的问题,又提出了L-BFGS算法,来优化存储数据

conclusion

本来打算上述算法逐一实现一下,做到这里,发现上述算法是逐渐优化的关系,L-BFGS算法是最好的版本,因此可以直接网上下载L-BFGS算法,

根据自己需要修改。

05-07 15:42