Pca最小化重構誤差

PCA（主成分分析）是一種常用的降維技術，它的目標是通過保留數據的最重要特徵來減少數據維度。在這個過程中，PCA 通過最大化數據方差來選擇主成分，這通常是通過最小化重構誤差來實現的。

重構誤差是指原始數據與通過 PCA 降維後的數據重構後的數據之間的差異。在 PCA 中，重構誤差通常用平方誤差和（Sum of Squared Errors, SSE）來衡量，即：

[ SSE = \sum_{i=1}^{n} | \mathbf{x}_i - \hat{\mathbf{x}}_i |^2 ]

其中，(\mathbf{x}_i) 是原始數據點，(\hat{\mathbf{x}}_i) 是重構後的數據點，(n) 是數據點的總數。

為了最小化重構誤差，PCA 會找到數據的最優投影方向，這些方向被定義為主成分。主成分是通過計算協方差矩陣的特徵值和特徵向量來確定的。協方差矩陣 (\Sigma) 的特徵值 (\lambda_1, \lambda_2, \dots, \lambda_d) 對應於特徵向量 (\mathbf{v}_1, \mathbf{v}_2, \dots, \mathbf{v}_d)，其中 (d) 是數據維數。特徵值按降序排列，即 (\lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_d)。

PCA 選擇前 (k) 個最大的特徵值對應的特徵向量 (\mathbf{v}_1, \mathbf{v}_2, \dots, \mathbf{v}_k) 作為主成分，並將數據投影到由這些特徵向量張成的子空間中。這樣，數據維度就從 (d) 維降低到 (k) 維，同時保留了最多的數據方差。

通過選擇前 (k) 個主成分，PCA 實際上是在最小化重構誤差，因為這樣可以確保在降維過程中保留最多的原始數據信息。在實際套用中，通常會選擇那些能夠解釋數據方差至少某個百分比的主成分，或者根據交叉驗證來選擇合適的維度 (k)，以確保重構誤差在可接受的範圍內。