計量經濟學
交叉驗證作為驗證固定效應的一種手段?
為了測試甚至使用某些類型的固定效應是否合適,使用交叉驗證方法是否合適?假設我有這種類型的心智模型:
$$ \text{wage} = \text{years of schooling} + \text{household FE} + \text{industry FE} + \text{year FE} $$
然而,假設我使用交叉驗證在樣本外測試這個時間序列模型,並以某種方式發現,如果我不包括家庭 FE,我對工資的預測會更準確(例如,通過降低超出樣本 RMSE)。在那種情況下,改用這個模型會更合適嗎?
$$ \text{wage} = \text{years of schooling} + \text{industry FE} + \text{year FE} $$
為什麼或者為什麼不?
我自己的直覺表明,如果確實存在混淆估計的家庭層面的影響,那麼添加家庭 FE 應該會提高樣本外預測的準確性。同時,這些預測似乎依賴於對每個家庭的固定效應的準確估計,這對於單個家庭來說可能並不准確。另一方面,我知道人們永遠不會天真地拋出變數來預測結果以獲得因果模型。
作為另一種說法,以下陳述是對還是錯:
“如果確實與一個變數存在因果關係,那麼添加該變數應該有助於改善預測。”
“如果存在因果關係,並且在使用這些特定的因果變數時我的預測更加不准確,那麼我無法準確辨識感興趣的因果參數”(在這種情況下是受教育年限的斜率)
你對每個家庭有多少觀察?如果它是一個小數字,那麼家庭的 FE 將不會被很好地估計。這將在家庭中“平均”,並且對受教育年限的影響的估計不會因此而產生偏差,但是如果您在樣本外進行預測,那麼不精確且不穩定的 HH FE 點估計將導致樣本外預測不佳.