多元回歸和“保持變數固定”
假設我們回歸一個變數 $ Y $ 關於兩個自變數 $ X_1 $ 和 $ X_2 $ . 由於我們已經包括 $ X_2 $ 在回歸中,得到 $ \hat{\beta_1} $ 係數通常被稱為是 $ X_1 $ 在 $ Y $ ‘保持 $ X_2 $ 固定”或“控制 $ X_2 $ ‘。然後據說這消除了任何遺漏的變數偏差,這是由於 $ X_2 $ .
為了更仔細地研究這一點,觀察到我們可以持有 $ X_2 $ 固定在各種不同的值。將注意力限制在那些在數據集中至少出現一次的值(例如,因為有兩個數據點 $ X_{2i} = 5 $ )。在這種情況下,我們可以進行簡單的回歸 $ Y $ 在 $ X_1 $ 僅使用那些(比如說)的數據點 $ X_{2i} = 5 $ . 然後我們可以對所有可能的情況重複這個回歸 $ X_2 $ 值(假設它們至少重新出現一次)。很自然地推測,我們得到 $ \beta_2 $ 估計值應該與平均值相似(相同?) $ \beta_2 $ 從我們的簡單回歸中獲得的係數。真的是這樣嗎?
“保持固定的其他回歸器”的語言是啟發式的(但沒有問題)。考慮$$ y_i =\beta_0 +\beta_1 x_{1i} +\beta_2 x_{2i}+ u_i $$
OLS 估計 $ \beta_1 $ 與回歸相同,
$$ y_i =\beta_0 +\beta_1 \widetilde{x_{1i}}+ u_i $$
在哪裡 $ \widetilde{x_{1i}} $ 是殘差 $ x_{1i} =\delta_0 +\delta_1 x_{2i}+\widetilde{x_{1i}} $ . 這是 Frisch-Waugh-Lovell 定理的一個應用。
因為 OLS 殘差在構造上與回歸量不相關,所以我們知道 $ Cov(\widetilde{x_{1i}}, x_{2i})=0 $ . 因此,OLS 真正做的是創建一個與控制項不相關的回歸量版本( $ \widetilde{x_{1i}} $ 以上),並在該版本中使用變體。當該版本的變數更改時,其他控制項平均不會更改(由於不相關性)並且“保持固定”。
存在一些更符合您所要求的風格的正式推導。在大部分無害的計量經濟學的第 3 章中,安格里斯特和皮施克考慮了 $ x_{1i} $ 是二進制的。定義 $ \delta_v $ 作為平均效果 $ x_1 $ 在 $ y $ 什麼時候 $ x_{2i}=v $
$$ \hat{\beta_1} = \frac{\sum_{v}\delta_v[P(x_{1i}=1|x_{2i}=v)(1-P(x_{1i}=1|x_{2i}=v))]P(x_{2i}=v)}{\sum_{v}[P(x_{1i}=1|x_{2i}=v)(1-P(x_{1i}=1|x_{2i}=v))]P(x_{2i}=v)} $$