具有多個指標變數的 OLS
我的數據集包含兩個數值變數 (
n1
,n2
) 和六個指示變數。前三個指示變數指定屬性的位置(i1
=north、i2
=center、i3
=south),接下來的三個指示變數指定牆壁的顏色(j1
=blue、j2
=red、j3
=other)。假設我想預測房價 (y
)。我想執行一個普通的最小二乘回歸。我有兩個問題:
- 我應該包括所有指標變數還是應該每組排除一個?為什麼?
y = b1 * n1 + b2 * n2 + b3 * i1 + b4 * i2 + b5 * i3 + b6 * j1 + b7 * j2 + b8 * j3
對比
y = b1 * n1 + b2 * n2 + b3 * i1 + b4 * i2 + b6 * j1 + b7 * j2
- 我應該包括一個攔截嗎?以及它如何影響指標變數的解釋?
y = b0 + b1 * n1 + b2 * n2 + b3 * i1 + b4 * i2 + b5 * i3 + b6 * j1 + b7 * j2 + b8 * j3
和
y = b0 + b1 * n1 + b2 * n2 + b3 * i1 + b4 * i2 + b6 * j1 + b7 * j2
這似乎是一個關於完美共線性的問題。做 $ i1 +i2+i3 = 1 $ 總是?如果是這樣,那麼如果要包含常量,則必須排除其中一個。如果所有房屋都在北部、南部或中心,就會出現這種情況。如果您在另一個地區(東部或西部)有一些房屋,那麼您可以包括所有三個變數以及一個常數,因為並非總是如此 $ i1 +i2 +i3 = 1 $ .
第二組 3 個指標變數與此類似。
認為 $ i1+i2+i3 = 1 $ ,也就是說,所有房屋都在北部、南部或中心。然後,如果你包括 $ i1 $ 和 $ i2 $ 與常數一樣,該常數被解釋為“被省略組(南)的平均價格”,而 $ i1 $ 是“北部與南部房屋的平均價格差異”。
你可以改為包括 $ i1 $ , $ i2 $ , 和 $ i3 $ 但排除常數,在這種情況下,係數直接估計每組的平均值。
如果您包含其他協變數(例如牆壁顏色的虛擬變數),上述解釋僅會發生變化,因為我們必須添加“保持所有其他協變數不變”。