線性回歸:何時期望殘差不具有條件均值 0?
假設 $ Y, X, $ 和 $ U $ 是隨機變數,使得回歸$$ Y=\beta_0+\beta_1X+U $$是最好的線性預測器 $ Y $ 給定 $ X $ .
我的問題是,我們什麼時候可以期待 $ E(U|X)=0 $ ? 我知道這種條件期望通常被假定為均值 $ 0 $ 對於 OLS 和其他特定情況,這也是正確的(例如,當 $ X $ 是二進制的)。但為什麼是 $ E(U|X)=0 $ 通常不正確(例如,當 $ X $ 具有除此之外的其他值 $ {0, 1} $ ) 有什麼方法可以修改它來製作 $ E(U|X)=0 $ ?
例如,由於混淆變數或內生性,該假設可能會被違反。事實上,只要兩者之間存在相關性,假設就會失敗 $ X $ 和 $ U $ (因此任何時候 $ COV(X,U) \neq 0 $ . 這實際上一直在發生——整個計量經濟學領域的大部分內容都是為了幫助我們解決這個問題。
假設失敗的一個具體例子是省略變數偏差。例如,如果人口模型是:
$$ y = \beta_0 + \beta_1 x + \beta_2 z + u $$
但是您嘗試僅擬合簡單的回歸 $ \hat{y} = \hat{\beta_0} + \hat{\beta_1}x $ 並且之間存在相關性 $ x $ 和 $ z $ 那麼將違反零條件均值假設,因為回歸模型將歸因於 $ y $ 即使是那些由 $ z $ 到 $ x $ . 例如,假設您想檢查教育的效果 $ (x) $ 關於工資( $ y $ )並且還假設教育與父母的教育正相關( $ z $ ) 並且您從模型中排除了父母的教育。在這種情況下,應用於樣本的回歸模型將系統地高估教育的影響,因為它將父母教育的部分影響歸因於個人教育。
另請注意,零條件假設是關於真實模型的假設 - 它無法用數據進行驗證,您需要有關主題的知識並做出一些合乎邏輯的論據來證明其有效。在樣本中,期望的平均誤差總是為零,因為 OLS 是通過最小化殘差平方和來計算的。