比較兩個相差幾個數據點的回歸
我建立了一個模型來解釋股票市場(標準普爾 500 指數)的風險可歸因於每個部門,其中每個部門彼此獨立(部門之間的相關係數均為 0)。
例如,我有以下數據:
Period Consumer Discretionary Consumer Staples Energy Financials Health Care Industrials Information Tech Materials Telecommunication Utilities 2018-04-26 to 2018-05-25 10.32% 7.13% 7.75% 12.61% 15.21% 7.34% 27.62% 7.79% 1.76% 2.45% 2018-04-27 to 2018-05-29 7.90% 5.22% 4.96% 20.67% 12.27% 10.97% 21.85% 9.72% 5.41% 1.01%
我使用滾動回歸(使用每日回報,31 天滾動期)來計算值。據了解,2018-04-26 和 2018-05-25 期間,10.32% 的總市場風險由非必需消費品板塊解釋,獨立於其他板塊。同樣,在 2018 年 4 月 27 日至 2018 年 5 月 29 日期間,21.85% 的總市場風險由資訊技術部門解釋,獨立於其他部門。
這兩個回歸的輸入數據完全相同,除了第一個包含 2018-04-26 並且不包含 2018-05-29 而第二個不包含 2018-04-26 但包含 2018-05- 29. 所以任何兩個連續的行相差兩個數據點。
我的問題是,使用回歸輸出和輸入數據,是否可以確定哪些輸入數據對值的變化負責?
例如,您可以看到,Financials 的風險貢獻在兩行之間從 12.61% 增加到 20.67%。是不是因為 2018-05-29 發生了一些事情,它出現在第二次回歸中,但沒有出現在第一次回歸中?或者是因為 2018-04-26,它出現在第一次回歸中但沒有出現在第二次回歸中?如果兩者都不是,這是否意味著這兩個數據點(2018-04-26 和 2018-05-29)在解釋變化時並不那麼重要?
我對這個分析很感興趣,因為給定輸出數據,我想知道市場上實際發生了什麼並定性地解釋它。這種分析的名稱是什麼?
非常感謝。
鑑於您目前的設置,很難判斷 2018-04-26 還是 2018-05-29 是導致更改的原因。
有多種回歸診斷可用於確定哪個點是重要的。我建議從Cook’s Distance開始。這是對單個點對最終回歸的影響的度量。它通過計算從回歸中刪除單個觀察的效果來工作。
如果您無法訪問用於計算庫克距離的庫,那麼您可以簡單地從回歸中刪除每個觀察值並重新計算您的統計數據。這非常接近一種稱為JackKnife Resampling的技術。
我還建議從包含這兩天的回歸樣本開始,這樣您就可以在使用這些技術時隔離刪除某一天或其他天的影響。順便說一句,我還想重申一下,您可能在 Cross Validated 或 Stats 上運氣更好(例如,參見https://stats.stackexchange.com/questions/8344/influence-functions-and-ols)。