統計數據

對折刀的困惑

  • May 22, 2021

假設我正在嘗試使用千斤頂刀來估計某個估計器的變異數 $ E $ . 如果我有 $ n $ 數據點,我從計算開始 $ n $ 估計(稱他們為 $ B_1 $ , …, $ B_n $ ),每個都從離開其中一個獲得 $ n $ 數據點出我的樣本。如果我理解正確,那麼維基百科頁面會建議我對變異數的估計應該是

$$ \hat{Var(E)} = \frac{\sum_{i = 1}^n (B_i - \bar{B_i})^2}{n-1} $$

在哪裡 $ \bar{B_i} $ 是我的平均值 $ n $ 估計。那麼標準誤是 $ \sqrt(\hat{Var(E)}) $ .

另一方面,這裡的註釋似乎暗示

$$ \hat{Var(E)} = \sum_{i = 1}^n (B_i - \bar{B_i})^2\left(\frac{n-1}{n}\right) $$

我在這裡想念什麼?我應該使用哪個公式?提前謝謝了!

額外的問題:如果答案確實是第二個公式,那麼標準誤差是否會變得更小(正如人們所期望的那樣) $ n $ 變大?我問是因為 $ \sum_{i = 1}^n (B_i - \bar{B_i})^2/n \approx Var(B_i) $ 對於大 $ n $ ; 所以看起來第二個估計大致是 $ Var(B_i)(n-1) $ . 我不清楚這是在減少 $ n $ (即使 $ Var(B_i) $ 歸零為 $ n $ 變大)。

我不是統計學家……這是經濟學論壇,請原諒我可能犯的錯誤。我從這些幻燈片中獲得了大部分資訊。

考慮一個感興趣的統計數據 $ \theta $ 有一致但有偏差的估計 $ \hat \theta $ . Jacknife 估計 $ \hat \theta_{(i)} $ with 是相同的統計量,基於從刪除觀察獲得的樣本 $ i $ . 為所有人做這件事 $ i $ 並取平均值 $ \hat \theta_{(i)} $ 給出: $$ \hat \theta_{(.)} = \frac{1}{n} \sum_{i = 1}^n \hat \theta_{(i)} $$ 如上所述,估計器 $ \hat \theta $ 是有偏見的,所以讓: $$ \mathbb{E}(\hat \theta) = \theta + \frac{b}{n} + O\left(\frac{1}{n^2}\right) $$ 在哪裡 $ b $ 是估計量的一階偏差 $ \hat \theta $ . 然後對於 Jacknife 估計,我們有一個類似的表達式: $$ \mathbb{E}(\hat \theta_{(i)}) = \theta + \frac{b}{n-1} + O\left(\frac{1}{n^2}\right). $$ 因此,忽略高階項,我們得到: $$ \mathbb{E}(\hat \theta_{(i)}) - \frac{b}{n-1} = \mathbb{E}(\hat \theta) - \frac{b}{n},\ \to (n-1)\mathbb{E}(\hat \theta_{(i)} - \hat \theta) = \frac{b}{n} $$ 這表明: $ (n-1) (\hat \theta_{(i)} - \hat \theta) $ 是一個“無偏”估計量 $ \dfrac{b}{n} $ (至少當我們忽略所有其他高階偏差項時)。然後使用此校正,我們有以下“偏差校正估計”: $$ pv_{(i)} = \hat \theta + (n-1)(\hat \theta - \hat \theta_{(i)}) = n \hat \theta + (n-1) \hat \theta_{(i)}. $$ 這稱為偽值。

現在,當然只使用 $ pv_{(i)} $ 對於一個特定的值 $ i $ . 因此,一個更好的偏差校正估計是對所有這些進行平均的估計,即jacknife估計: $$ \hat \theta_{jack} = \frac{1}{n}\sum_{i = }^n pv_i = n \hat \theta + (n-1) \hat \theta_{(.)}. $$ 偽值 $ pv_{(i)} $ 不一定是獨立同居,但無論如何都假設他們是。然後,它們的變異數由下式給出: $$ \begin{align*} {\rm var}(pv_i) &= \frac{1}{n-1} \sum_{i = 1}^n (pv_i - \hat \theta_{jack})^2,\ &= \frac{1}{n-1} \sum_{i = 1}^n (n \hat \theta - (n-1)\hat \theta_{(.)})^2,\ &= \frac{1}{n-1} \sum_{i = 1}^n (n \hat \theta + (n-1) \hat \theta_{(i)} - n \hat \theta - (n-1) \hat \theta_{(.)} )^2,\ &= \frac{(n-1)^2}{n-1} \sum_{i = 1}^n (\hat \theta_{(i)}- \hat \theta_{(.)})^2,\ &= (n-1) \sum_{i = 1}^n (\hat \theta_{(i)} - \hat \theta_{(.)})^2 \end{align*} $$ 假設中心極限定理成立 $ \hat \theta_{jack} $ , 然後: $$ \frac{\theta_{jack} - \theta}{s_n} \to^d N(0,1) $$ 在哪裡 $ s_n $ 是變異數 $ pv_i $ 除以 $ n $ . $$ s_n^2 = \frac{n-1}{n} \sum_{i = 1}^n \left(\hat \theta_{(i)} - \hat \theta_{(.)}\right)^2. $$ 這種“差異”, $ s^2_n $ , 是您在問題中給出的估計量。

引用自:https://economics.stackexchange.com/questions/44097