最陡梯度法

最陡梯度法(Steepest Descent Method)是一種最最佳化算法,用於尋找函式的局部最小值。它是梯度下降法的一種基本形式,其特點是沿著梯度的負方向(即函式值下降最快的方向)更新參數。

最陡梯度法的疊代公式如下:

\theta{new} = \theta{old} - \alpha \nabla J(\theta)

其中,\theta{new} 和 \theta{old} 分別是新舊的參數向量,\alpha 是學習率(step size),\nabla J(\theta) 是損失函式 J(\theta) 的梯度。

最陡梯度法的優點是簡單、易於實現,並且不需要二階導數信息。它的缺點是在非凸函式上可能會陷入局部最小值,而且收斂速度可能較慢,尤其是在接近最小值時可能會出現鋸齒狀的路徑。

在實際套用中,最陡梯度法通常會結合其他技術來改進,例如使用小批量梯度(stochastic gradient descent, SGD)、 momentum、Nesterov accelerated gradient、adaptive learning rates(如Adam算法)等。這些改進可以加快收斂速度,並提高算法在複雜問題上的性能。