主成分分析
多維數據上的 Pca
我的數據有 x 個股票在 n 個週期內的股票收益和每隻股票的 m 個因子敞口(例如:價值、動量)在 n 個週期內(回歸的輸出)。我可以將這些數據組合在一起,然後計算相關矩陣(x x x 矩陣),然後執行 pca 我是否需要分別標準化每個數據集(收益和因子暴露)?
這是型號選擇的問題
- 您認為您的每個股票/因子的波動性是平穩的嗎?
- 根據您的說法,準確計算共變異數矩陣的係數所需的觀察次數是多少?
例如,粗略波動率的結果表明,如果你想使用你的波動率估計在下一個 $ N $ 天,你應該使用最後 $ N $ 天來估計。這可能比您要估計共變異數的天數要少…
此外,對於共變異數:你真的想使用從金融危機前 6 個月(比如 2008 年初)到一年後(比如 2010)的天數嗎?這個(相對較短的)時期由非常不同的共變異數機制組成……
選擇你的模型,每個股票/因子可以是一個不同的比例,因此你減少了他們“創新”的回報,然後你計算你所擁有的共變異數。如果您想要更正式的詳細資訊,我建議您查看Torben G. Andersen、Tim Bollerslev、Peter F. Christoffersen 和 Francis X. Diebold 的金融市場風險管理實用波動率和相關性建模。
在相關矩陣上執行PCA時,不需要對數據進行標準化。相關性與標準化數據的共變異數相同。您可能還想嘗試其他類型的因子分析,因為模型 $$ R = F\beta + \varepsilon, $$ 特殊風險 $ \varepsilon $ 任何因素都無法解釋,更有意義。例如,您可以嘗試最大概似因子分析或主軸因子分解。為此目的,Stata 和 SPSS 非常方便。當然,R 也有。