統計

如何對 PCA 做出最終解釋?

  • November 26, 2012

我對最終將數據載入回原始變數有疑問。

例如:

我有來自 a,b,c….j 的 10 個變數,使用過去 300 天的回報我得到了 300 X 10 的回報矩陣。此外,我已經正規化回報併計算了 10 X 10 的共變異數矩陣。現在我已經計算了特徵值和特徵向量,所以我有 10 X 1 和 10 X 10 對應特徵值的向量。Screeplot 說 5 個分量解釋了 80% 的變化,所以現在有 5 個特徵向量和相應的特徵值。

現在進一步如何將它們載入回原始變數以及我如何從 a、b、c 中得出哪個變數 …..j 解釋時間“t”的最大變化

為了讓事情變得非常清楚,你有一個原始矩陣 $ X $ 大小的 $ 300 \times 10 $ 帶著你所有的回報。

現在你要做的是選擇第一個 $ k=5 $ 特徵向量(即足以獲得給定數據的 80% 的變化),然後形成一個向量 $ U $ 大小的 $ 10 \times 5 $ . 的每一列 $ U $ 表示原始數據集的組合,它們都是正交的。

PCA 是一種降維方法:您可以使用它將數據儲存在矩陣中 $ Z $ 大小的 $ 300 \times 5 $ 通過做:

$$ Z = X U $$ 然後你可以恢復一個近似值 $ X $ 我們可以稱之為 $ \hat{X} $ 如下:

$$ \hat{X} = Z U^\intercal $$ 請注意,由於您的 5 個特徵向量僅代表 X 變化的 80%,因此您不會有 $ X=\hat{X} $ .

在財務應用程序的實踐中,我不明白您為什麼要執行這些歸約操作。

在因子分析方面,您可以將每行的絕對值相加 $ U $ ; 我認為得分最高的向量將是一個很好的候選人。

引用自:https://quant.stackexchange.com/questions/4607