為什麼樣本越大,標準差越低?
我擔心為什麼國家層面的變數通常比公司層面的變數具有更高的標準差。
今天,我的前輩朋友告訴我,似乎是因為公司層面的變數相比國家層面的變數有更多的觀察值,導致了這樣一個不對稱的標準差。
我想知道是否有任何數學、參考文件或直覺的方式來解釋這種理由。
直覺地說,僅在組級別發生變化的變數應該比在個體級別發生變化的可比變數具有更低的變異數(因此更低的標準差) 。
由於這些變數在每個組內都沒有變化,因此它們的組內變異數為零,因此它們的變異數僅由組間變異數決定。
要看到這一點,讓 $ i $ 是個人和 $ g $ 是組級別(例如國家/地區)。讓我們將手段和條件手段表示為: $$ \begin{align*} &x_{..} = \mathbb{E}(x_{i,g}),\ &x_{.g} = \mathbb{E}(x_{i,g}|g) \end{align*} $$ 然後,我們可以寫: $$ \begin{align*} var(x_{ig}) &= \mathbb{E}(x_{ig}^2) - x_{..}^2,\ &= \sum_g \left(\mathbb{E}(x_{ig}^2|g) - x_{.g}^2 \right)\Pr(g) + \sum_g \left( x_{.,g}^2 - x_{..}^2 \right) \Pr(g),\ &= \sum_g var(x_{i,g}|g) \Pr(g) + var(x_{.,g}) \end{align*} $$ 所以我們看到變異數 $ x_{i,g} $ 可以寫成組內變異數加上組間變異數的加權和。
現在,考慮兩個變數 $ x_{i,g} $ 和 $ y_{i,g} $ 這樣 $ x_{.g} = y_{.g} $ 但 $ y $ 僅在組級別上有所不同,(因此 $ y_{i,g} = y_{.g} $ 對全部 $ i $ ).
由於它們具有相同的組均值,因此我們有: $$ var(x_{.g}) = var(y_{.g}). $$ 還 $$ var(y_{i,g}|g) = 0, \text{ while } var(x_{i,g}|g) \ge 0. $$ 像這樣: $$ var(x_{i,g}) \ge var(y_{i,g}). $$ 這抓住了一個簡單的事實,即跨組平均只能減少變異數。在只有一組的極端情況下,我們得到 $ y_{.g} = y_{..} $ ,所以變異數下降到零。