最小描述長度

最小描述長度(Minimum Description Length, MDL)是一種用於模型選擇和數據壓縮的原理,它基於這樣一種思想:最好的模型是既能很好地擬合數據,又能用最短的編碼來描述數據的模型。

在資訊理論中,描述長度是指編碼數據所需的比特數。一個模型(如一個機率分布或一個預測規則)的描述長度包括兩部分:

  1. 模型的先驗描述長度(prior description length):這是編碼模型本身的比特數。
  2. 模型的後驗描述長度(posterior description length):這是編碼數據所需的比特數,使用模型來描述。

最小描述長度原則選擇具有最小總描述長度的模型。這個原則可以用來選擇最合適的模型,或者用來評估模型的複雜度。

例如,考慮有兩個模型M1和M2,它們都可以用來描述一組數據。我們可以計算每個模型的先驗描述長度和後驗描述長度,然後計算總描述長度。選擇總描述長度最小的模型作為最佳模型。

最小描述長度原則在統計學習、機器學習和數據壓縮等領域都有套用。它提供了一種客觀的方法來選擇模型,而不依賴於數據的測試集或交叉驗證。