最小二乘正則化

最小二乘正則化(Regularized Least Squares)是一種在統計學習和機器學習中常用的技術,用於解決過擬合問題並提高模型的泛化能力。最小二乘法(Least Squares)通常用於線性回歸模型中,通過最小化誤差的平方和來找到最佳的模型參數。然而,當數據集較小或者特徵數量較多時,最小二乘法可能會導致過擬合,這時就需要引入正則化項。

正則化項通常包括兩種形式:

  1. 嶺回歸(Ridge Regression):在損失函式中添加參數的平方和的懲罰項,即 L2 正則化。這樣可以使得參數的值更小,從而減少過擬合的風險。嶺回歸的最佳化目標函式為: [ J(\theta) = \sum{i=1}^{m} \left( h{\theta}(x^{(i)}) - y^{(i)} \right)^2 + \alpha \sum_{j=1}^{n} \thetaj^2 ] 其中,( h{\theta}(x) ) 是線性模型,( \alpha ) 是正則化參數,用於控制正則化的強度。

  2. lasso 回歸(Lasso Regression):在損失函式中添加參數的絕對值的和的懲罰項,即 L1 正則化。Lasso 回歸不僅可以減少過擬合,還可以通過參數的稀疏性(即一些參數變為零)來幫助特徵選擇。lasso 回歸的最佳化目標函式為: [ J(\theta) = \sum{i=1}^{m} \left( h{\theta}(x^{(i)}) - y^{(i)} \right)^2 + \alpha \sum_{j=1}^{n} \left| \theta_j \right| ] 其中,( \alpha ) 同樣是正則化參數。

通過引入正則化項,最小二乘法可以更好地擬合訓練數據,同時也能在測試數據上取得更好的性能。在實際套用中,通常需要通過交叉驗證來選擇合適的正則化參數 ( \alpha )。