最大熵公式

最大熵（Maximum Entropy）是一種選擇模型或參數的方法，它假設在沒有任何其他信息的情況下，最好的模型是平均分布的模型，即熵最大的模型。在資訊理論中，熵是對隨機變數不確定性的度量。最大熵模型通常用於分類問題，特別是在自然語言處理中。

最大熵模型的基本思想是：在所有模型中，最均勻的模型是最好的模型。這意味著我們應該選擇一個模型，使得它對未知數據的預測儘可能地不確定。這種不確定性可以通過熵來衡量。

最大熵模型的公式可以表示為：

[ \max{\theta} \sum{i=1}^N \sum{j=1}^M p{ij} \log p_{ij} ]

其中，$p_{ij}$是第$i$個樣本的第$j$個類別的機率，$N$是樣本的數量，$M$是類別的數量，$\theta$是模型的參數。

這個公式的意思是，我們要找到一組參數$\theta$，使得所有樣本的所有類別的機率之和的熵最大。

在實際套用中，最大熵模型通常會加上一些約束條件，比如機率的和為1，以及一些其他的統計學約束。這些約束可以通過拉格朗日乘數法來引入，從而得到一個帶有約束的最大熵模型。

[ \max{\theta} \sum{i=1}^N \sum{j=1}^M p{ij} \log p{ij} - \sum{k=1}^K \lambda_k g_k(\theta) ]

其中，$g_k(\theta)$是約束函式，$\lambda_k$是拉格朗日乘數。

這個公式可以通過梯度上升法來最佳化，從而找到最優的參數$\theta$。