收益上的 PCA 和 K-means 分群
我正在對一組收益執行 PCA,我想將輸出結果分群到具有相似因子敞口的股票組中。
但是,當我在收益的共變異數上執行 PCA 時,PCA 得分(映射到新的 PC 平面的值)給了我一個包含日期和主成分的矩陣,因此在此上進行分群將在日期上分群。
我可以對每隻股票的因子係數進行分群,但後來我發現這忽略了變異數。例如,對於 PC1,與 PC2 相比,負載的變異數非常低,因此當使用負載進行分群時,它只是主要使用 PC2 進行分群,這對我來說似乎天生錯誤?
或者這仍然正確嗎?我們可以假設因為大多數股票以與 PC1 類似的方式載入,那麼集群無論如何都無法從該 PC 確定多少。
我擔心我在這裡遺漏了一些變異數資訊,因為 PC1 解釋了 55% 的變異數,而 PC2 解釋了 18% 的變異數!
一個經典的問題,去過那裡,做過那個,沒有買T卹;-)
PCA 和分群(K-means 或分層)相似但不同。它們都是“非監督式學習”方法;但一種本質上是描述性的,而另一種本質上是實用的和權宜的。人們都想要兩者,但他們需要首先優先考慮一個!
你的 PC1/PC2 現象實際上對股票很有意義。PC1 是測試版;而且這裡的因子載荷確實會很緊——從長遠來看,大多數股票的貝塔係數在~0.8 到~1.25 之間。為簡單起見,想像一下,您的基準由國內銀行和出口石油公司主導……您的外國/國內/外匯/美元 PC2 確實會產生更廣泛的負載,即使這種影響在規模上遠沒有那麼顯著基本測試版(你 18% 對 55% 的變異數點)。對我來說,將你的股票集中在你的國內/銀行和出口商/商品之間會很直覺。
需要注意的是——你只需要對 PC1 確實只是基本的 beta 感到滿意,並且對 beta 只是所有股票共有的一個因素,而不是真正區分它們的因素感到滿意。
如果沒有通過該測試,您可能需要親自動手進行階層式分群。自下而上的方法合併最相似的股票(或股票組)。所以它從你的石油公司、你的礦工、你的技術、銀行、工業等的輕鬆合併開始。在此之前它必須開始合併行業。但是你會得到一個結構化的相似組合,它是如何到達那裡的透明的。