Posted 2024-07-22Updated 2024-11-19blog10 minutes read (About 1437 words)

梯度下降

介绍

试想一下，你在一个山坡上寻找一个最快的下坡方法。首先$ 360 $度旋转一周你会找到一个当前最陡峭的方向，沿着这个方向走一步。重复上面的操作，继续旋转$ 360 $度，这个时候你会再次找到一个最陡峭的方向，重复该操作，直到你到达谷底。

同时，你可以选择$ w,b $的值使得你的起始位置不同，从而可能到达不同的谷底，也就是局部最小值。

算法实现

通过公式$ tmp_{-}w=w-\alpha\frac\partial{\partial w}J(w,b) $和$ tmp_{-}b=b-\alpha\frac\partial{\partial b}J(w,b) $可以使得$ w,b $的值不断更新，最终收敛于一个最小值$ J(w,b) $。需要注意的是，$ w,b $的值需要同时更新，注意这四行代码正确的执行顺序。

理解梯度下降

从直观的$ J(w)=wx $来理解，我们在此先忽略了$ b $。

可以很清楚的看到，在第一幅图中，当我们关于$ w $的偏微分为正数时，我们沿它的反方向也就是$ x $轴的负方向，函数值会快速的下降。在第二幅图中，当我们沿$ x $轴的正方向时，函数值也在快速下降，最终收敛于一个最小值。

从多元函数微分的角度来理解

$ J(w,b)=\frac{1}{2m}\sum_{i=1}^{m}(f_{w,b}(x^{(i)})-y^{(i)})^{2} $

我们可以随意地给出一组$ w,b $的取值，当然这样随意的值不会太理想，因此我们接下来要做的就是调整它们的值。我们可以求出损失函数$ J(w,b) $对$ w,b $的偏导数从而得到方向导数$ \frac{\partial J}{\partial l}=\frac{\partial J}{\partial w}\cos\varphi+\frac{\partial J}{\partial b}\sin \varphi $，进而得到$ J(w,b) $的梯度向量$ (\frac{\partial J}{\partial w},\frac{\partial J}{\partial b}) $。令向量$ \vec{n}=(\frac{\partial J}{\partial W},\frac{\partial J}{\partial b}) $，方向$ l $的向量为$ \vec{l}=(\cos\varphi,\sin\varphi) $，因此$ \frac{\partial\mathrm{J}}{\partial l}=\vec{n}\cdot\vec{l}=|n|\cdot|l|\cdot\cos\varphi $。可以看到沿梯度方向时函数增长最陡峭的方向，$ n $的模也就代表了它的陡峭程度，沿着这个向量的反方向去改变即可使$ J(w,b) $下降的最快，直到最后几乎不再改变。