統計
有多少解釋變數太多了?
在研究任何類型的預測模型時,無論是使用普通的線性回歸還是更複雜的方法,如神經網路或分類和回歸樹,似乎總是傾向於添加更多解釋變數/因素。模型的樣本內性能總是會提高,有時甚至會提高很多,即使已經添加了很多變數。什麼時候過分?什麼時候樣本內表現的所謂改進不太可能延續到實時交易中?您如何衡量這一點(除了簡單的東西,如 Akaike 和貝氏資訊標準,無論如何在我的經驗中效果不佳)?歡迎提供建議、參考和經驗。
“讓事情盡可能簡單,但不要簡單。” 您要避免的問題是(接近)多重共線性。提示將是添加/刪除一個回歸器將顯著改變其他回歸器的係數。在實踐中(好吧,在我閱讀的研究中)我很少看到這個明確的測試。
如果你認為你有多重共線性,那麼最好要麼估計一個沒有多重共線性的子集,要麼放棄有問題的回歸量。一個解釋力較低的模型,由 $ R^2 $ 肯定比解釋力不正確(不穩定)的模型要好。