有多少解釋變數太多了？

October 25, 2011

在研究任何類型的預測模型時，無論是使用普通的線性回歸還是更複雜的方法，如神經網路或分類和回歸樹，似乎總是傾向於添加更多解釋變數/因素。模型的樣本內性能總是會提高，有時甚至會提高很多，即使已經添加了很多變數。什麼時候過分？什麼時候樣本內表現的所謂改進不太可能延續到實時交易中？您如何衡量這一點（除了簡單的東西，如 Akaike 和貝氏資訊標準，無論如何在我的經驗中效果不佳）？歡迎提供建議、參考和經驗。

“讓事情盡可能簡單，但不要簡單。” 您要避免的問題是（接近）多重共線性。提示將是添加/刪除一個回歸器將顯著改變其他回歸器的係數。在實踐中（好吧，在我閱讀的研究中）我很少看到這個明確的測試。
如果你認為你有多重共線性，那麼最好要麼估計一個沒有多重共線性的子集，要麼放棄有問題的回歸量。一個解釋力較低的模型，由 $ R^2 $ 肯定比解釋力不正確（不穩定）的模型要好。

引用自：https://quant.stackexchange.com/questions/1664

相關問答

能夠預測資產目前價格是否有任何效用？

May 27, 2022

根據天氣+農業數據預測期貨價格

February 19, 2018

難以理解前瞻偏差

January 22, 2017

您如何評估共變異數預測？

March 4, 2022

關於如何使用自然語言處理來預測股票的任何研究？

November 21, 2021

哪種機器學習方法更適合金融時間序列的預測？

October 17, 2021