內生性

內生性影響不准確的例子是什麼?

  • May 8, 2021

在學習內生變數時,我在 StackExchange 上的一個主題中找到了一個非常直接的答案:

外生變數被定義為不受模型中其他變數影響的變數。

以多元回歸模型為例:

$ y=\beta_0+\beta_1x_1+\beta_2x_2+u $

$ x_1 $ 當其確定不受任何因素影響時稱為外生變數 $ x_2 $ 和錯誤項 $ u $ .

內生變數定義為 $ x_1 $ 受到影響 $ x_2 $ 或者 $ u $ .

這很重要,因為當我們執行回歸時,我們正在生成一個假設因變數和自變數的函式。如果我們發現內生性,我們將無法準確估計 $ x_1 $ 在 $ y $ .

為什麼在內生性的情況下,我們不會得到準確的估計效果 $ x_1 $ 在 $ y $ . 該聲明是否有任何樣本?實際上,我遇到了這樣一個問題,即當我在回歸方程中添加一些回歸量時,其中一個變數係數會改變大小甚至翻轉符號。但我想知道背後的原因。

一種理論解釋是: $ x_1 $ 與 $ u $ 或者 $ x_2 $ , 產生偏差 $ beta_1 $ 這取決於相關性的方向和大小

內生性可能由多種原因引起,在每種情況下,解釋都會略有不同。我不會對所有可能的原因進行全面審查,而只會展示兩個重要的例子:

同時性

例如,按照 Verbeek 的現代計量經濟學指南 pp 146,假設真實模型由方程組給出:

$$ y = \beta_1 + \beta_2 x_{2t} + \epsilon_t \tag{1} $$

$$ x_{2t} = y_t + z_{2t} \tag{2} $$

在哪裡 $ z $ 將是外生的 $ (cov(z,\epsilon) = 0) $ 但很明顯 $ x $ 是內生的。從上面的方程我們可以看出,如果 $ x $ 不僅增加 $ y $ 增加但 $ x $ 通過效果再次增加 $ y $ 在 $ x $ 由 $ 2 $ 然後再次增加 $ x $ .

解決 1 和 2 的 $ x $ 和 $ y $ 我們分別得到:

$$ x_{2t} = \frac{\beta_1}{1-\beta_2} + \frac{1}{1-\beta_2} z_{2t} + \frac{1}{1-\beta_2} \epsilon_t \tag{3} $$

$$ y_t = \frac{\beta_1}{1-\beta_2} + \frac{\beta_2}{1-\beta_2} z_{2t} + \frac{1}{1-\beta_2} \epsilon_t \tag{4} $$

從3開始:

$$ cov(x_{2t} \epsilon_t ) = \frac{1}{1-\beta_2} cov(z_{2t} \epsilon_t) + \frac{1}{1-\beta_2} V(\epsilon) = \frac{\sigma^2}{1-\beta_2} \tag{5} $$

5只是表明 $ x $ 將與 $ \epsilon $ ,但這種相關性的直接後果是:

$$ \text{plim } b_2 = \beta_2 + \frac{cov(x_{2t}, \epsilon_t}{V(x_{2t})} $$

所以你估計的不僅僅是你想要的貝塔係數 $ \beta_2 $ 但你正在估計真實的總和 $ \beta $ 係數與共變異數之比 $ x $ 和 $ z $ 變化 $ x $ 或者 $ \frac{cov(x_{2t}, \epsilon_t}{V(x_{2t})} $ . 這確實甚至可以強制係數翻轉。例如,假設真實效果 $ \beta_2=5 $ 但 $ cov(x,z)=-20 $ 和 $ V(x)=1 $ 那麼如果你只是天真地執行模型 $ y = b_1 + b_2 x_{2t} + \epsilon_t $ 你的估計 $ \hat{b_2} $ 將會 $ \hat{b_2} = 2 -20 = -18 $ 它具有相反的符號和大小 $ b $ 會失真。所以你會得到不可靠的結果。

省略變數偏差

這將是一個範例,我們沒有觀察(或未能包含)應該在模型中的變數。在 Verbeek pp 145 之後再次考慮個人工資方程:

$$ y_ = x_{1i}’ \beta_1 + x_{2i} \beta_2 + u_i \gamma + v_i $$

這裡 $ y $ 將是工資, $ x_{1i} $ 是個體特徵的向量(例如性別、年齡、位置等), $ x_{2i} $ 受教育年限和 $ u_i $ 一些未被觀察到的與生俱來的能力。我們期望 $ cov(x_{2i},u_i)>0 $ 因為這是有道理的,如果您具有較高的先天能力,您將接受更高的教育,因為先天能力高的人應該在學校/大學中度過更輕鬆的時光。

現在讓我們假設因為天生的能力是不可觀察的,你不得不估計:

$$ y x_i’\beta + \epsilon_i $$

和 $ x_i’=(x_{1i}’, x_{2i}) $ 和 $ \beta’= (\beta_1’, \beta_2), $ 當然,因為我們省略了能力 $ \epsilon_i = u_i\gamma + v_i $ .

現在 $ b $ 估計 $ \beta $ 由以下給出:

$$ b= \beta + \left( \sum_{i=1}^N x_i x_i’ \right)^{-1} \sum_{i=1}^N x_i u_i \gamma + \left( \sum_{i=1}^N x_i x_i’ \right)^{-1} \sum_{i=1}^N x_i v_i $$

即使假設 $ E(x_i, v) = 0 $ (即在真實模型中沒有額外的同時性或其他內生性問題),我們得到:

$$ \text{plim } b = \beta + \sum_{xx}^{-1}E[x_i u_i] \gamma $$

所以只要要麼 $ \gamma \neq 0 $ (在這種情況下,它不應該出現在第一個模型中,因為這意味著能力不會影響工資),或者 $ E[x_i u_i] \neq 0 $ 在我們的情況下不會成立,因為我們假設能力確實會影響教育,您估計的 beta不會是自變數對因變數的實際影響,而是實際影響加上由省略和包含的自變數之間的相關性確定的項和 $ \gamma $ . 同樣,這可以改變幅度和符號 $ \beta $ 所以你根本無法相信它。

最後,在計量經濟學環境中可能存在其他產生內生性的方式,但探索所有這些方式超出了 SE 的範圍,而上述兩種可能是最常見且相關的。

引用自:https://economics.stackexchange.com/questions/43818