收益上的 PCA 和 K-means 分群

January 12, 2021

我正在對一組收益執行 PCA，我想將輸出結果分群到具有相似因子敞口的股票組中。
但是，當我在收益的共變異數上執行 PCA 時，PCA 得分（映射到新的 PC 平面的值）給了我一個包含日期和主成分的矩陣，因此在此上進行分群將在日期上分群。
我可以對每隻股票的因子係數進行分群，但後來我發現這忽略了變異數。例如，對於 PC1，與 PC2 相比，負載的變異數非常低，因此當使用負載進行分群時，它只是主要使用 PC2 進行分群，這對我來說似乎天生錯誤？
或者這仍然正確嗎？我們可以假設因為大多數股票以與 PC1 類似的方式載入，那麼集群無論如何都無法從該 PC 確定多少。
我擔心我在這裡遺漏了一些變異數資訊，因為 PC1 解釋了 55% 的變異數，而 PC2 解釋了 18% 的變異數！

一個經典的問題，去過那裡，做過那個，沒有買T卹;-)
PCA 和分群（K-means 或分層）相似但不同。它們都是“非監督式學習”方法；但一種本質上是描述性的，而另一種本質上是實用的和權宜的。人們都想要兩者，但他們需要首先優先考慮一個！
你的 PC1/PC2 現象實際上對股票很有意義。PC1 是測試版；而且這裡的因子載荷確實會很緊——從長遠來看，大多數股票的貝塔係數在~0.8 到~1.25 之間。為簡單起見，想像一下，您的基準由國內銀行和出口石油公司主導……您的外國/國內/外匯/美元 PC2 確實會產生更廣泛的負載，即使這種影響在規模上遠沒有那麼顯著基本測試版（你 18% 對 55% 的變異數點）。對我來說，將你的股票集中在你的國內/銀行和出口商/商品之間會很直覺。
需要注意的是——你只需要對 PC1 確實只是基本的 beta 感到滿意，並且對 beta 只是所有股票共有的一個因素，而不是真正區分它們的因素感到滿意。
如果沒有通過該測試，您可能需要親自動手進行階層式分群。自下而上的方法合併最相似的股票（或股票組）。所以它從你的石油公司、你的礦工、你的技術、銀行、工業等的輕鬆合併開始。在此之前它必須開始合併行業。但是你會得到一個結構化的相似組合，它是如何到達那裡的透明的。

引用自：https://quant.stackexchange.com/questions/60450

收益上的 PCA 和 K-means 分群

相關問答

計算從 PCA 載荷解釋的變異數

回報的 PCA 對市場空頭產生負負荷

股票因子分析的非負矩陣分解

在對原始因素進行 PCA 之後，如何判斷哪些原始因素占主導地位？

結合共變異數？

關於指數加權移動平均模型有效天數的問題