計量經濟學

為什麼在回歸中添加二次項會改變不相關的係數?

  • July 27, 2015

我在 STATA 並使用來自 Ipums 的 2010 年數據。我試圖衡量單身男性、已婚男性、單身女性和已婚女性之間的工資差異。我進行了第一次回歸併得到以下結果:

   lwage |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
    educ |   .1297281   .0003132   414.22   0.000     .1291142    .1303419
     age |   .0130395   .0000535   243.56   0.000     .0129346    .0131444
uhrswork |   .0454742   .0000613   741.81   0.000      .045354    .0455943
singlefemale |  -.0749253   .0021686   -34.55   0.000    -.0791756    -.070675
marriedfemale |   .0853371   .0021692    39.34   0.000     .0810856    .0895886
marriedmale |   .3149997   .0021153   148.92   0.000     .3108539    .3191455
   _cons |   6.826747    .003847  1774.56   0.000     6.819207    6.834287

接下來,我添加了 age^2 作為額外的解釋變數。我的結果發生了巨大變化:

  lwage |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
    educ |   .1258587   .0003049   412.83   0.000     .1252612    .1264563
     age |   .0961006   .0003096   310.38   0.000     .0954938    .0967075
   agesq |  -.0009427   3.46e-06  -272.14   0.000    -.0009495   -.0009359
uhrswork |   .0406035   .0000622   652.40   0.000     .0404815    .0407255
singlefemale |  -.0865127   .0021091   -41.02   0.000    -.0906465    -.082379
marriedfemale |   -.035098   .0021552   -16.29   0.000    -.0393221    -.030874
marriedmale |   .2403908    .002075   115.85   0.000     .2363239    .2444578
   _cons |   5.455941   .0062742   869.58   0.000     5.443643    5.468238

所以基本上,當我假設年齡與 logwage 線性相關時,已婚女性的收入估計比單身男性多,但當我假設二次形式時,我得到相反的結果。兩者都具有統計學意義。為什麼會這樣?以及如何選擇更好的模型?

另外,這在其他應用程序中是否常見?我很驚訝我可以通過添加一個不相關的二次項來更改某些東西的符號——這似乎是潛在濫用的來源。

您的錯誤不再相同。例如,而不是寫 $ Y = \beta_1 + \beta_2 X + U $ , 你實際上在寫 $ Y = \alpha_1 + \alpha_2 X + \alpha_3 X^2 + V $ . 不期望它們應該相同。

在其他領域,問題在於誤差項可能與您的回歸量相關。

不要害怕:教育工資是一個常見的規範。尋找類似的東西

工資教育內生性

應該提出一大堆處理該主題的論文。

這是一個眾所周知的現象,稱為共線性。基本上,您的兩個自變數(年齡和年齡平方)具有很強的相關性。在存在共線性的情況下,係數估計值可能會發生顯著變化。為了克服這個問題,您可以使用穩健回歸,例如嶺回歸。

引用自:https://economics.stackexchange.com/questions/6692