計量經濟學

具有多個指標變數的 OLS

  • September 15, 2022

我的數據集包含兩個數值變數 ( n1, n2) 和六個指示變數。前三個指示變數指定屬性的位置(i1=north、i2=center、i3=south),接下來的三個指示變數指定牆壁的顏色(j1=blue、j2=red、j3=other)。假設我想預測房價 ( y)。我想執行一個普通的最小二乘回歸。我有兩個問題:

  1. 我應該包括所有指標變數還是應該每組排除一個?為什麼?

y = b1 * n1 + b2 * n2 + b3 * i1 + b4 * i2 + b5 * i3 + b6 * j1 + b7 * j2 + b8 * j3

對比

y = b1 * n1 + b2 * n2 + b3 * i1 + b4 * i2 + b6 * j1 + b7 * j2

  1. 我應該包括一個攔截嗎?以及它如何影響指標變數的解釋?

y = b0 + b1 * n1 + b2 * n2 + b3 * i1 + b4 * i2 + b5 * i3 + b6 * j1 + b7 * j2 + b8 * j3

y = b0 + b1 * n1 + b2 * n2 + b3 * i1 + b4 * i2 + b6 * j1 + b7 * j2

這似乎是一個關於完美共線性的問題。做 $ i1 +i2+i3 = 1 $ 總是?如果是這樣,那麼如果要包含常量,則必須排除其中一個。如果所有房屋都在北部、南部或中心,就會出現這種情況。如果您在另一個地區(東部或西部)有一些房屋,那麼您可以包括所有三個變數以及一個常數,因為並非總是如此 $ i1 +i2 +i3 = 1 $ .

第二組 3 個指標變數與此類似。

認為 $ i1+i2+i3 = 1 $ ,也就是說,所有房屋都在北部、南部或中心。然後,如果你包括 $ i1 $ 和 $ i2 $ 與常數一樣,該常數被解釋為“被省略組(南)的平均價格”,而 $ i1 $ 是“北部與南部房屋的平均價格差異”。

你可以改為包括 $ i1 $ , $ i2 $ , 和 $ i3 $ 但排除常數,在這種情況下,係數直接估計每組的平均值。

如果您包含其他協變數(例如牆壁顏色的虛擬變數),上述解釋僅會發生變化,因為我們必須添加“保持所有其他協變數不變”。

引用自:https://economics.stackexchange.com/questions/52736