最小上界原理

最小上界原理（Minimum Upper Bound Principle，簡稱MUBP）是控制理論中的一個概念，特別是在最優控制和動態規劃中。這個原理指出，在尋找最優控制策略時，最優值函式（value function）的上界應該是最小的。

在動態規劃和最優控制問題中，通常需要找到一個策略，使得在給定的約束條件下，系統的性能指標（如成本、收益等）達到最優。為了找到這樣的策略，通常會定義一個值函式，它表示了在給定狀態下的最優性能指標。最小上界原理表明，在搜尋最優策略的過程中，應該考慮那些能夠產生最小上界的值函式的策略。

最小上界原理在實踐中通常通過疊代算法來實現，例如 Policy Iteration、Value Iteration 或 Linear Programming 方法。這些算法通過不斷地更新值函式和策略，逐步逼近最優解。在每一輪疊代中，算法都會找到一個上界，並根據最小上界原理選擇下一個要更新的狀態。

最小上界原理在許多領域都有套用，包括機器人學、航空航天、經濟管理和資源分配等。它是一種有效的工具，用於解決複雜系統中的最佳化問題。