交叉熵最大似然估計

交叉熵(Cross-Entropy)是一種用於評估兩個機率分布之間差異的度量。在機器學習和深度學習中,交叉熵經常用於評估模型預測的機率分布與真實標籤的機率分布之間的差異。

最大似然估計(Maximum Likelihood Estimation, MLE)是一種用於估計統計模型參數的方法,其基本思想是找到使觀察到的數據點出現的機率最大的模型參數值。

將交叉熵與最大似然估計結合起來,我們可以使用交叉熵損失函式來訓練模型,使得模型的預測機率分布儘可能接近真實標籤的機率分布。這個過程可以通過最小化交叉熵損失函式來實現,而最小化交叉熵損失函式等價於最大化模型的對數似然函式。

假設我們有一個分類問題,有K個類,模型預測每個類別的機率為( p_k ),真實標籤為( y_k )(其中( k )是類別的索引),則交叉熵損失函式可以表示為:

[ \mathcal{L}(\mathbf{p}, \mathbf{y}) = -\sum_{k=1}^{K} y_k \log p_k ]

其中( \mathbf{p} )表示模型的預測機率分布,( \mathbf{y} )表示真實標籤的機率分布。

為了使用最大似然估計來訓練模型,我們需要最大化模型的對數似然函式,即:

[ \mathcal{L}(\mathbf{p}, \mathbf{y}) = \log \prod_{k=1}^{K} p_k^{y_k} ]

由於交叉熵損失函式是對數似然函式的負數,因此最小化交叉熵損失函式等價於最大化對數似然函式。在實際套用中,我們通常通過梯度下降等最佳化算法來最小化交叉熵損失函式,從而找到模型的最優參數。