計量經濟學
為什麼在回歸中添加二次項會改變不相關的係數?
我在 STATA 並使用來自 Ipums 的 2010 年數據。我試圖衡量單身男性、已婚男性、單身女性和已婚女性之間的工資差異。我進行了第一次回歸併得到以下結果:
lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval] educ | .1297281 .0003132 414.22 0.000 .1291142 .1303419 age | .0130395 .0000535 243.56 0.000 .0129346 .0131444 uhrswork | .0454742 .0000613 741.81 0.000 .045354 .0455943 singlefemale | -.0749253 .0021686 -34.55 0.000 -.0791756 -.070675 marriedfemale | .0853371 .0021692 39.34 0.000 .0810856 .0895886 marriedmale | .3149997 .0021153 148.92 0.000 .3108539 .3191455 _cons | 6.826747 .003847 1774.56 0.000 6.819207 6.834287
接下來,我添加了 age^2 作為額外的解釋變數。我的結果發生了巨大變化:
lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval] educ | .1258587 .0003049 412.83 0.000 .1252612 .1264563 age | .0961006 .0003096 310.38 0.000 .0954938 .0967075 agesq | -.0009427 3.46e-06 -272.14 0.000 -.0009495 -.0009359 uhrswork | .0406035 .0000622 652.40 0.000 .0404815 .0407255 singlefemale | -.0865127 .0021091 -41.02 0.000 -.0906465 -.082379 marriedfemale | -.035098 .0021552 -16.29 0.000 -.0393221 -.030874 marriedmale | .2403908 .002075 115.85 0.000 .2363239 .2444578 _cons | 5.455941 .0062742 869.58 0.000 5.443643 5.468238
所以基本上,當我假設年齡與 logwage 線性相關時,已婚女性的收入估計比單身男性多,但當我假設二次形式時,我得到相反的結果。兩者都具有統計學意義。為什麼會這樣?以及如何選擇更好的模型?
另外,這在其他應用程序中是否常見?我很驚訝我可以通過添加一個不相關的二次項來更改某些東西的符號——這似乎是潛在濫用的來源。
您的錯誤不再相同。例如,而不是寫 $ Y = \beta_1 + \beta_2 X + U $ , 你實際上在寫 $ Y = \alpha_1 + \alpha_2 X + \alpha_3 X^2 + V $ . 不期望它們應該相同。
在其他領域,問題在於誤差項可能與您的回歸量相關。
不要害怕:教育工資是一個常見的規範。尋找類似的東西
工資教育內生性
應該提出一大堆處理該主題的論文。
這是一個眾所周知的現象,稱為共線性。基本上,您的兩個自變數(年齡和年齡平方)具有很強的相關性。在存在共線性的情況下,係數估計值可能會發生顯著變化。為了克服這個問題,您可以使用穩健回歸,例如嶺回歸。