多項分布最尤推定

多項分布(Multinomial distribution)是一種用於描述在有限個類別中進行多次獨立分類時,每個類別出現次數的機率分佈。在多項分布中,每個類別的出現次數是相互獨立的,並且遵循同一機率質量函數(PMF)。

在實務中,我們通常使用最大概似估計(Maximum Likelihood Estimation, MLE)來估計多項分布的參數。給定一個樣本,這些參數包括每個類別的機率。MLE的目標是找到使樣本產生的機率最大的參數值。

假設我們有K個類別,每個類別出現的次數分別為x1, x2, ..., xK。每個類別出現的機率分別為p1, p2, ..., pK,並且滿足 \sum_{k=1}^{K} p_k = 1。多項分布的PMF可以表示為:

[P(X = (x_1, x_2, ..., x_K); p_1, p_2, ..., pK) = \prod{k=1}^{K} \frac{n!}{x_1!x_2!...x_K!}p_1^{x_1}p_2^{x_2}...p_K^{x_K}]

其中n是總共的觀察次數,x1 + x2 + ... + xK = n。

為了找到MLE,我們需要最大化這個機率密度函數。由於樣本已經給定,我們可以通過對數似然函數來進行優化,這通常更容易處理:

[\mathcal{L}(p_1, p_2, ..., p_K) = \log P(X = (x_1, x_2, ..., x_K); p_1, p_2, ..., p_K)]

[\mathcal{L}(p_1, p_2, ..., pK) = \sum{k=1}^{K} x_k \log pk + (n - \sum{k=1}^{K} xk) \log \left(1 - \sum{k=1}^{K} p_k\right)]

為了找到最大值,我們可以對每個參數求偏導數,並設置它們為零:

[\frac{\partial \mathcal{L}}{\partial p_k} = \frac{x_k}{pk} - \frac{n - \sum{k=1}^{K} xk}{1 - \sum{k=1}^{K} p_k} = 0]

解這個方程組通常需要疊代方法,如隨機梯度上升或牛頓法。一旦我們找到了這些機率的估計值,它們就是MLE。

在實際應用中,多項分布的MLE估計通常用於文本分類、市場份額分析、生物學中的種群分佈等領域。