正交回歸/PCA
我正在做正交回歸。我的 X 矩陣由廣泛市場指數、價值指數、成長指數、一些行業的回報組成,……(我的 Y 是股票基金的回報)
我在 X 的(第一個兩個)主成分上回歸 Y(這是為了避免 X 中的多重共線性問題)。然後,我通過特徵向量矩陣的矩陣乘法和主成分的 beta 來取消原始 X 變數的 beta。到目前為止一切都很好
我想確保一切都是正確的,所以決定作為一個測試來回歸 X 上的大盤指數回報(並記住大盤指數回報實際上是在 X 中)。我預計大盤指數的貝塔值非常接近 1,但當我進行正交回歸時,它並非如此——它的值與所有其他貝塔值相似(大約 0.15)。
這肯定沒有意義吧?當我對 X 上的市場指數的回報進行簡單的舊回歸時(考慮到 X 變數之間的高度相關性,這會受到多重共線性的影響,對嗎?),貝塔估計值正好是 1(而其他因素的貝塔值非常比較小),但當我使用正交回歸時,beta 為 0.15。
市場指數因子的小貝塔不值得關注嗎?
如果 X 包含幾個高度相關的指標,則第一個 PCA 將是它們的線性組合,並且其權重將相似,因為最後它們代表相同的潛在現象。當您在 Y 和 X 中使用相同的變數進行回歸時,您將通過構造獲得該特定回歸量的完美匹配。
共線性的真正問題是變數 X 的許多不同線性組合會給出非常相似的結果。PCA 僅限制這些組合的可能性以使您的模型參數更加穩定,但這並不意味著這些是“真正的”參數,還有許多其他組合會給您類似的結果,因此 beta 並不那麼容易解釋。
我的建議是您通過構造建構一個具有較少共線性的模型。例如,您可以使用廣泛的股票指數,例如按國家 GDP 或市值加權的世界指數(我們稱之為 I1),然後找到 X 在與 I1 正交的子空間中的投影(我們稱之為 X’)以消除X 的每個索引中的廣泛市場效應。這樣做可以消除大多數共線性問題,除非您在 X 中使用類似的索引。這樣,您的模型將具有兩種 beta。一個與廣泛的市場走勢相關(與 I1 相關),其餘與特定行業、風格、國家等相關。輕鬆找到 X’ 的一種方法是使用 X 中每個指數的回歸殘差建構它,使用 I2 和常數作為唯一的回歸量。X’ 將是具有每個單獨回歸的殘差的矩陣。然後使用 I2 和 X’ 作為回歸量。如果您避免 X’ 索引過於相似(例如使用石油和能源),您將避免多重共線性問題,並且能夠輕鬆解釋您的結果。如果您的 X 有許多類似的變數,我會考慮在 X’ 值上使用 PCA,但同樣可能難以解釋。