交叉驗證作為驗證固定效應的一種手段？

February 23, 2022

為了測試甚至使用某些類型的固定效應是否合適，使用交叉驗證方法是否合適？假設我有這種類型的心智模型：
$$ \text{wage} = \text{years of schooling} + \text{household FE} + \text{industry FE} + \text{year FE} $$
然而，假設我使用交叉驗證在樣本外測試這個時間序列模型，並以某種方式發現，如果我不包括家庭 FE，我對工資的預測會更準確（例如，通過降低超出樣本 RMSE）。在那種情況下，改用這個模型會更合適嗎？
$$ \text{wage} = \text{years of schooling} + \text{industry FE} + \text{year FE} $$
為什麼或者為什麼不？
我自己的直覺表明，如果確實存在混淆估計的家庭層面的影響，那麼添加家庭 FE 應該會提高樣本外預測的準確性。同時，這些預測似乎依賴於對每個家庭的固定效應的準確估計，這對於單個家庭來說可能並不准確。另一方面，我知道人們永遠不會天真地拋出變數來預測結果以獲得因果模型。
作為另一種說法，以下陳述是對還是錯：
“如果確實與一個變數存在因果關係，那麼添加該變數應該有助於改善預測。”
“如果存在因果關係，並且在使用這些特定的因果變數時我的預測更加不准確，那麼我無法準確辨識感興趣的因果參數”（在這種情況下是受教育年限的斜率）

你對每個家庭有多少觀察？如果它是一個小數字，那麼家庭的 FE 將不會被很好地估計。這將在家庭中“平均”，並且對受教育年限的影響的估計不會因此而產生偏差，但是如果您在樣本外進行預測，那麼不精確且不穩定的 HH FE 點估計將導致樣本外預測不佳.

引用自：https://economics.stackexchange.com/questions/50519

交叉驗證作為驗證固定效應的一種手段？

相關問答

具有多個指標變數的 OLS

如何處理乘法常數和加法常數固定效應？

用相關係列填補數據空白

停止治療的差異-差異模型

幫助解釋標準差

證明線性機率模型中誤差的條件變異數是異變異數的？