看似不相關的回歸估計 - 相當於 OLS 標準錯誤?
在一個 SURE 框架中,如果所有回歸中的所有 X 都相同,我的印像是沒有效率增益。最近一位助理教授告訴我,beta 係數將與 OLS 相同,但由於 SURE 框架,即使所有 X 都相同,標準誤差也會降低。
看看格林第 7 版第 10.2.2 節中的推導,我相信我是正確的。
誰能進一步澄清?如果所有回歸中的所有 X 都相同,SURE 是否會提高效率?
假設對於每個觀察 $ i = 1,\ldots, N $ , 我們有 $ M $ 方程: $$ y_{i,j} = x_{i,j}\beta_j + \varepsilon_{i,j} $$ 在哪裡 $ i = 1,\ldots, N $ 列舉個人和和 $ j = 1,\ldots, M $ 列舉方程。這裡 $ x $ 是大小 $ 1 \times k_j $ 和 $ \beta_j $ 是大小 $ k_j \times 1 $ 和 $ k_j $ 是回歸的協變數數 $ j $ . 堆疊在所有 $ i = 1,\ldots N $ ,我們得到 $ M $ 方程: $$ y_j = X_j \beta_j + \varepsilon_j $$ 現在在哪裡 $ X_j $ 是大小 $ N \times k_j $ . 為簡單起見,假設 $ X_j $ 是非隨機的。接下來,假設對於所有 $ i = 1,\ldots, N $ 和 $ j = 1,\ldots, M $ : $$ \begin{align*} &\mathbb{E}(\varepsilon_{i,j}) = 0,\ &\mathbb{E}(\varepsilon_{i,j}^2) = \sigma_{jj} \end{align*} $$ 對於方程之間的共變異數,讓所有 $ i = 1,\ldots, N $ 和 $ j,\ell = 1,\ldots, M $ : $$ \mathbb{E}(\varepsilon_{i,j} \varepsilon_{i,\ell}) = \sigma_{j,\ell} $$ 雖然對於所有人 $ j,\ell = 1,\ldots, M $ 和 $ i,i’ = 1,\ldots, N $ 和 $ i \ne i’ $ : $$ \mathbb{E}(\varepsilon_{i,j}, \varepsilon_{i’,k}) = 0 $$ 這意味著同一個人的錯誤可能在方程式之間存在相關性,而不同個人的錯誤是不相關的。
這可以更簡潔地表示為: $$ cov(\varepsilon_j, \varepsilon_{\ell}) = \sigma_{j,\ell}I_N $$ 現在,讓我們將各種方程式堆疊起來,一個在另一個之上: $$ y = Z\beta + \varepsilon, $$ 在哪裡: $$ y = \begin{bmatrix} y_1\y_2\ \vdots\y_M\end{bmatrix}, \varepsilon = \begin{bmatrix} \varepsilon_1 \ \vdots \ \varepsilon_M \end{bmatrix},\ Z = \begin{bmatrix} X_1 & 0 & \ldots & 0\ 0 & X_2 & \ldots & 0,\ \vdots & \vdots & \ddots & \vdots\ 0 & 0 & \ldots & X_M \end{bmatrix}, \beta = \begin{bmatrix} \beta_1\ \vdots \ \beta_M\end{bmatrix} $$ 的變異數-共變異數矩陣 $ \varepsilon $ 採取以下形式: $$ \mathbb{E}(\varepsilon \varepsilon’) = V = \begin{bmatrix} \sigma_{11} I_N & \sigma_{12}I_N & \ldots & \sigma_{1M} I_N\ \sigma_{21} I_N & \sigma_{22} I_N & \ldots & \sigma_{2N} I_N\ \ldots & \ldots & \ddots & \vdots\ \sigma_{M1} I_N & \ldots & \ldots & \sigma_{MM}I_N \end{bmatrix} = \Sigma \otimes I_N $$ 在哪裡 $ \otimes $ 是克羅內克積並且: $$ \Sigma = \begin{bmatrix}\sigma_{11} & \sigma_{12} & \ldots & \sigma_{1M}\ \sigma_{21} & \sigma_{22} & \ldots & \sigma_{2M}\ \vdots & \vdots & \ddots & \vdots\ \sigma_{M1} & \sigma_{M2} & \ldots & \sigma_{MM} \end{bmatrix} $$ $ \Sigma $ 給出固定個體的誤差的變異數共變異數矩陣.
對於 Kronecker 產品,我們有以下規則: $ (A \otimes B)^{-1} = A^{-1} \otimes B^{-1} $ 和 $ (A \otimes B)(C \otimes D) = AC \otimes BD $ 和 $ (A \otimes B)’ = A’ \otimes B’ $ .
讓 $ \hat \Sigma $ 是的估計 $ \Sigma $ 基於初始 OLS 估計 $ y_j $ 在 $ X_j $ 然後讓 $ \hat V = \hat \Sigma \otimes I_N $ . 那麼可行的 GLS 估計量由下式給出: $$ \begin{align*} \hat \beta &= (Z’ \hat V^{-1} Z)^{-1} Z’ \hat V^{-1} y,\ &=(Z’(\hat \Sigma \otimes I_N)^{-1}Z)^{-1}Z’(\hat \Sigma \otimes I_N)^{-1}y,\ &= (Z’(\hat \Sigma^{-1}\otimes I_N)Z)^{-1}Z’(\hat \Sigma^{-1}\otimes I_N)y,\ &= \beta + (Z’(\hat \Sigma^{-1}\otimes I_n)Z)^{-1}Z’y \end{align*} $$
現在,讓我們假設所有 $ X_i $ 是相同的,比如說 $ X $ , 然後 $ Z = I_M \otimes X $ 我們可以進一步簡化: $$ \begin{align*} \hat \beta &= (Z’(\hat \Sigma^{-1}\otimes I_N)Z)^{-1}Z’(\hat \Sigma^{-1}\otimes I_N)y,\ &= ((I_M \otimes X)’(\hat \Sigma^{-1}\otimes I_N)(I_M \otimes X))^{-1}(I_M \otimes X)’(\hat \Sigma^{-1}\otimes I_N)y,\ &= ((I_M \hat \Sigma^{-1}\otimes X’I_N)(I_M \otimes X))^{-1}(I_M \hat \Sigma^{-1} \otimes X’ I_N)y,\ &= (\hat \Sigma^{-1} \otimes X’X)^{-1}(\hat \Sigma^{-1}\otimes X’)y,\ &= (\hat \Sigma \otimes (X’X)^{-1})(\hat \Sigma^{-1}\otimes X’)y,\ &= (\hat \Sigma\hat \Sigma^{-1} \otimes (X’X)^{-1}X’)y\ &= (I_M \otimes (X’X)^{-1} X’)y \end{align*} $$ 請注意 $ \hat \Sigma $ 從這個方程中消失了。最後一個方程可以寫成以下方式: $$ \hat \beta = \begin{bmatrix} (X’X)^{-1}X’y_1\ (X’X)^{-1} X’y_2\ \vdots\ (X’X)^{-1}X’ y_1 \end{bmatrix} = \beta + \begin{bmatrix}(X’X)^{-1}X’\varepsilon_1,\ (X’X)^{-1}X’\varepsilon_2\\vdots \ (X’X)^{-1}X’\varepsilon_M\end{bmatrix} $$ 因此,可行的 GLS 估計與通過方程估計的方程的 OLS 估計相同。請注意,這也意味著殘差 $ \hat \varepsilon_j $ 將與 OLS 估計的殘差相同。
現在要估計變異數共變異數矩陣,我們取乘積 $ (\hat \beta - \beta)(\hat \beta - \beta)’ $ 它給出了一個包含條目的矩陣: $$ \begin{align*} (\hat \beta_{j} - \beta_j)(\hat \beta_j - \beta_j)’ &= [(X’X)^{-1}X’ \varepsilon_j][(X’X)^{-1}X’\varepsilon_j]’,\ &= (X’X)^{-1}X’\varepsilon_j \varepsilon_j’X(X’X)^{-1} \end{align*} $$ 那麼對於方程 $ j $ ,我們有變異數共變異數矩陣: $$ V(\hat \beta_j) = \mathbb{E}((\hat \beta_j - \beta_j)(\hat \beta_j - \beta_j)) = \sigma_{jj}\left(X’X\right)^{-1}, $$
作為 $ \sigma_{jj} $ 未知,通常估計為 $ \hat \sigma_{jj} = \frac{1}{N}\sum_i \hat \varepsilon_{i,j}^2 $ 在哪裡 $ \hat \varepsilon_{i,j} $ 是可行 GLS 估計量的殘差。但是,在這種情況下,這些將與 OLS 估計量的殘差相同(作為估計量 $ \hat \beta $ 是相同的)。因此,變異數的估計 $ \hat \beta $ 對於 SUR 將與 OLS 估計的變異數估計相同(方程方程)。