計量經濟學

如果子樣本的結果與一般結果相反,我們該怎麼辦?

  • July 27, 2021

在我的複制研究中,我檢查了一項法律(由不同國家交錯實施的法律)是否會對公司的現金等價物產生影響。整個樣本的結果是公司的現金等價物在這項法律之後減少了。

然而,當我對發達國家和發展中國家的數據進行二次抽樣時,結果很有趣。它表明,在發達國家,現金等價物增加,而在發展中國家,現金等價物減少。

你以前有沒有遇到過同樣的問題,你通常會做什麼來解決這個問題。我的資深朋友告訴我這是一種悖論,我們最好忽略這種子樣本。他們的論點是子樣本應該與整個樣本呈現相同的方向。

我確實控制了組和周期固定效應以及一些相關的協變數

更新:為了讀者的利益,我建議您閱讀所有答案和評論,因為它們都非常有價值。

我會將您感興趣的回歸器與正在開發的國家的假人進行互動,看看會發生什麼。發達國家的機製完全有可能與世界其他地區不同。根據您的目標,您可能會對兩組國家的效果不同的觀察結果感到滿意,或者您可能會考慮對傳輸機制進行明確建模。

tldr:正如其他兩個答案也表明的那樣,您的結果不一定有問題。這可能是兩個子組具有不同的協變數分佈的情況。或者,法律的組內效應可能不同於組間效應。

聯合和單獨回歸

考慮由 0 和 1 索引的兩個組。假設有 $ k $ 協變數。全子樣本的回歸可以寫成: $$ y = \underbrace{X}{n \times k} \underbrace{\beta}{k \times 1} + \varepsilon $$ 估計量的值 $ \beta $ 是(誰)給的: $$ \hat \beta = (X’X)^{-1} X’y $$ 在考慮第一個子樣本時,我們可以以組為條件 $ 0 $ : $$ y_0 = X_0\beta_0 + \varepsilon_0 $$ 估計量的值 $ \beta_0 $ 是(誰)給的: $$ \hat \beta_0 = (X_0’X_0)^{-1}X_0’y_0 $$ 同樣,在第二個子樣本上,我們有: $$ y_1 = X_1 \beta_1 + \varepsilon_1 $$ 和: $$ \hat \beta_1 = (X_1’X_1)^{-1}X_1’y_1 $$ 估計 $ \hat \beta, \hat \beta_0 $ 和 $ \hat \beta_1 $ 有以下關係, $$ \begin{align*} \hat \beta &= (X’X)^{-1} X’y,\ &= (X’X)^{-1} X_0’y_0 + (X’X))^{-1}X_1’y_1,\ &= W_0 \hat \beta_0 + W_1 \hat \beta_1, \end{align*} $$ 在哪裡 $$ W_1 = \underbrace{(X’X)^{-1} X_0’X_0}{k \times k},\ W_2 = \underbrace{(X’X)^{-1} (X_1’X_1)}{k \times k}. $$ 可以檢查一下 $ X’X = X_0’X_0 + X_1’X_1 $ 所以我們看到 $ W_1 + W_2 = I $ . 這意味著合併回歸的係數是子樣本回歸係數的加權和。但是請注意,權重不一定非負。另外,作為 $ W_1 $ 和 $ W_2 $ 有維度 $ k \times k $ , 每個係數在 $ \hat \beta $ 是(可能)是 所有係數的函式 $ \hat \beta_0 $ 和 $ \hat \beta_1 $ .

一個例外是當分佈 $ X_0 $ 和 $ X_1 $ 是相同的。直覺地說,這對應於以下概念 $ X $ 獨立於組成員分佈。在這種情況下, $ X_0’X_0 \approx X_1’X_1 $ , 所以 $ W_1 $ 和 $ W_2 $ 是對角矩陣,對角線上是兩個子組的相對樣本大小。在這種情況下,每個係數 $ \hat \beta $ 然後是相應係數的加權平均值 $ \hat \beta_1 $ 和 $ \hat \beta_2 $ .

直覺

要查看上述結果背後的直覺,請考慮下圖。有 6 個數據點分為兩組:綠點和藍點。組內回歸(紅線)給出負斜率。但是,如果我們對整個樣本進行回歸,我們會得到一個正斜率(紫色線)。這是因為第二組(平均而言)具有較高的 $ x $ 和更高的價值 $ y $ ,這推翻了團體關聯內的負面影響。

直覺

例如,考慮公司工資和就業之間的關聯,並假設您有一個跨不同部門的樣本。在每個部門內都可能存在負關聯(因為更高的工資可能導致更少的利潤)。然而,跨部門也可能存在正相關關係:利潤越高的部門支付的工資越高。

你的情況

在您的情況下,您對聯合回歸具有組固定效應。放置聯合固定效果與從兩者中減去相同 $ y $ 和 $ L $ (法律變數)這些變數的組內平均值。因此,對於這些標準化變數,比​​如說 $ \bar y $ 和 $ \bar L $ ,你有聯合回歸: $$ \bar y = \beta \bar L + \varepsilon $$ 和特定於組的回歸(沒有截距,因為變數被貶低了): $$ \bar y_0 = \beta_0 \bar L_0 + \varepsilon_0,\ \bar y_1 = \beta_1 \bar L_1 + \varepsilon_1 $$ 估計值由下式給出: $$ \begin{align*} &\hat \beta = \frac{\bar L’\bar y}{\bar L’\bar L},\ &\hat \beta_0 = \frac{\bar L_0’ \bar y_0}{\bar L_0’ \bar L_0},\ &\hat \beta_1 = \frac{\bar L_1’ \bar y_1}{\bar L_1’ \bar L_1}. \end{align*} $$ 然後: $$ \begin{align*} \hat \beta &= \frac{\bar L_0’ \bar y_0 + \bar L_1’\bar y_1}{\bar L’\bar L},\ &= \hat \beta_0 \underbrace{\frac{\bar L_0’\bar L_0}{\bar L’ \bar L}}{w_0} + \beta_1 \underbrace{\frac{\bar L_1’ \bar L_1}{\bar L’ \bar L}}{w_1},\ &= \hat \beta_0 \frac{n_0 p_0(1-p_0)}{n_0 p_0(1-p_0) + n_1 p_1(1-p_1)} + \hat \beta_1 \frac{n_1 p_1(1-p_1)}{n_0 p_0(1-p_0) + n_1 p_1(1-p_1)} \end{align*} $$ 在哪裡 $ n_0 $ 和 $ n_1 $ 是子組樣本大小和 $ p_0 $ 和 $ p_1 $ 是每個子組中處理過的觀察值的分數。

我們看到兩者 $ w_0 $ 和 $ w_1 $ 是非負的,所以 $ \hat \beta $ 是加權平均值 $ \hat \beta_0 $ 和 $ \hat \beta_1 $ . 但是,仍然有可能兩者之一為負,另一個為正。

如果兩組大小相等,則變異數最大的組(在 $ L $ ) 將具有最大的權重。如果兩組的變異數相同,則觀察次數最多的組將具有最大的權重。

引用自:https://economics.stackexchange.com/questions/45680