如何平均一個變數的跨年 CDF
我有 10 年的財富收入比數據。我每年計算這個變數的 cdf。現在我正在嘗試平均多年的 cdfs。在每一個中,觀察的數量是不同的。有誰知道該怎麼做?
先感謝您。
蘇珊
為什麼不直接取加權平均呢?假設你有十年 $ t \in {1,…,10} $ 和年份 $ t $ 擁有 $ N_t $ 觀察結果,你總共有 $ \sum_t N_t=N $ 觀察。讓年—— $ t $ CDF 是 $ F_t $ 有支持 $ [\underline w_t,\overline w_t] $ .
然後,您可以將加權平均 CDF 定義為 $$ \overline F (w) = \sum_t \frac{N_t}{N} F_t(w). $$ 這給了你一個 cdf,一個遞增的右連續函式,範圍超過
$$ 0,1 $$有支持 $ \cup_t [\underline w_t,\overline w_t] $ . 但是,您必須注意個人支持,即 $ F_t(w) =1 \forall w>\overline w_t $ 和 $ F_t(w) =0 \forall w<\underline w_t $ .
@Baysiean 的答案建議計算每期經驗分佈函式的加權平均值 $ EDF_t(w) $ (在哪裡 $ w $ 是支持隨機變數的值 $ W $ ),我們評估的值 $ EDF_t $ 的 $ W $ . 讓我們看看這可能意味著什麼。
這 $ EDF_t(w) $ 表達式是,對於每個值 $ w $ 在支持下,
$$ EDF_t(w) = \frac 1{N_t} \sum_iI{w_{t,i} \leq w}. $$
這裡 $ w_{t,i} $ 是樣本中的一個數據點 $ t $ -第一個時期。建議的加權平均值為
$$ \overline {EDF}(w) = \sum_t \frac{N_t}{N} EDF_t(w) = \sum_t \frac{N_t}{N} \frac 1{N_t} \sum_iI{w_{t,i} \leq w} = \frac 1 N \sum_t \sum_iI{w_{t,i} \leq w}, $$
這只是所有可用數據和跨時間段的匯總平均值。
換句話說,在這種情況下,取加權平均值證明等效於考慮所有時間段樣本的合併(未加權)平均值,為了對推理**有意義(除了對沒有經濟/因果/結構意義的特定樣本),必須依賴於分佈函式逐期相同的假設。但是“採用加權平均”似乎允許不同的分佈,如果再次對經濟推理感興趣,情況並非如此。
真正有趣的是將此估計任務建模為順序貝氏任務。