量化交易策略

解讀 PCA 分析

  • November 5, 2019

當我使用 PCA 時,我很難確定哪些變數是最重要的。我想做的是看看哪些變數解釋了股票價格的最大差異。我所做的是我從製藥行業的一些股票(如 JNJ、MRK 等)中獲取數據,並獲取它們的 P/SP/B ROE 和其他變數,我想知道哪些變數解釋了最大的差異,所以我知道當我分析製藥行業時要查看哪些指標。這就是結果。

Importance of components:
                         PC1    PC2    PC3    PC4     PC5     PC6     PC7     PC8    PC9    PC10      PC11
Standard deviation     2.7288 1.7861 1.5533 1.1306 0.82578 0.71937 0.47079 0.34490 0.3150 0.18236 1.814e-16
Proportion of Variance 0.4654 0.1994 0.1508 0.0799 0.04262 0.03234 0.01385 0.00743 0.0062 0.00208 0.000e+00
Cumulative Proportion  0.4654 0.6648 0.8156 0.8955 0.93809 0.97043 0.98429 0.99172 0.9979 1.00000 1.000e+00

所以我決定保留 5 個主要成分,因為它們解釋了超過 90% 的數據

我的問題是如何從這 5 個主要成分中確定哪些變數最重要?我可以使用諸如每個變數的加權平均值之類的東西,使權重基於變異數的比例,並取具有最高權重平均值的變數嗎?或者有沒有更好的方法來確定我的哪些變數與 PCA 分析最相關

這些是特徵向量

Rotation (n x k) = (16 x 11):
                                    PC1         PC2          PC3         PC4         PC5         PC6         PC7
Beta:M-3                     -0.29790642  0.06702808  0.043897343 -0.23444949  0.26922306 -0.52278907  0.49126902
Debt/Equity LF               -0.29683436 -0.20602790  0.209892052  0.17525538  0.17021916  0.22824284  0.13967642
P/S                          -0.13584463  0.37660138  0.371760998 -0.13147372  0.13251944  0.04785622 -0.07498348
P/B                          -0.32237181  0.04415421  0.294703959  0.01222229 -0.01493067  0.06389646  0.14404329
PM LF                         0.31231588  0.13244909  0.280519000 -0.04766506  0.01057485  0.13851709  0.10567161
OPM LF                        0.31383977  0.06628785  0.295610357 -0.05090070  0.03949326  0.20637913  0.07153909
R&D Exp T12M                  0.13290870 -0.22363789  0.356892802  0.17596955 -0.70388205 -0.08328041  0.23325195
ROA LF                        0.33128578  0.11822215  0.123556305 -0.15352214  0.15827191  0.04626632  0.41437205
ROE LF                        0.35240443  0.05558026  0.054402901 -0.00381858  0.09509125 -0.03775416  0.29445397
Rev - 1 Yr Gr:Q              -0.33213363  0.13173387  0.179946152 -0.04917693 -0.04327167  0.12309850  0.02891068
Dil EPS Frm Cont Op 1Y Gr LF -0.02935805  0.38139243  0.081834610  0.62033384  0.03574667 -0.03928716 -0.16499320
Curr Ratio LF                 0.02859583  0.48002784 -0.038108130 -0.37888227 -0.06938542  0.33198272 -0.18806338
P/E                           0.04731051  0.46627994 -0.033990479  0.41432037 -0.02392947 -0.30628066  0.12819470
Shrt Int Ratio:D-1           -0.33298583  0.01426119  0.008234069  0.10984204 -0.10586662  0.48387359  0.33537995
RSI: Period=14                0.06437034  0.09275629 -0.564351964  0.19383663  0.02711028  0.34214075  0.42631622
Tot Analyst Rec:D-1           0.15449771 -0.31749070  0.238832459  0.29221399  0.57364300  0.15502219 -0.09793154

希望你們在堆棧交換上能分享一點你的智慧並在這裡幫助我。先感謝您 。

IIRC,PC的跡象毫無意義。+/-‘ive 本身並不會告訴你任何事情。

相反,PC 的橫截面絕對最大值會告訴您每個項目哪一個最重要(例如:PC6 看起來對 Beta:M-3 最重要)。

我認為 Cochrane 資產定價中的 6.6a 和 6.6b 涉及到這一點(https://www.youtube.com/playlist?list=PLAXSVuGaw0KxVUym8IRkObSbUPEFaSbPt)。

這篇博文似乎很合理:https ://thequantmba.wordpress.com/2017/01/24/principal-component-analysis-of-equity-returns-in-python/

通常,PC1 縮放到 100% 權重,創建一個多空“投資組合 PC1”。

然後,這些投資組合往往“看起來”像其他可觀察資產。

略讀這篇論文似乎有一些範常式式碼,並由某人審閱: https ://web.wpi.edu/Pubs/ETD/Available/etd-080614-144242/unrestricted/Chen,_Huanting_PCA_2014-07-31_FINAL_VERSION.pdf

經典的例子是水平、坡度和曲率練習: https ://faculty.chicagobooth.edu/john.cochrane/teaching/coursera_documents/bond_notes_2.pdf

您可以使用 st louis fed 的 fred 上的數據重新創建它。

更大的問題是“你想做什麼?”。如果您沒有目標,IMO 的 PCA 會非常令人困惑。預設情況下,PC1 始終是最重要的(就解釋的變異數而言)。這正是 PCA 為您提供的。

引用自:https://quant.stackexchange.com/questions/49519