從有限樣本中估計每週、每年的數量
我想從每日價格系列中估算 $ P_t $ 和 $ N $ 觀察一個量,例如每週收益的變異數。我會用 $ \ln\left(\frac{P_{T+5}}{P_T}\right) $ 假設每周有 5 天為每週返回。
好的方法(或者看起來)是使用不重疊的數據,也就是說我最終會得到一個樣本 $ N/5 $ 數據點。假設我使用 $ \left(\ln\left(\frac{P_{5}}{P_0}\right), \ln\left(\frac{P_{10}}{P_5}\right), …, \ln\left(\frac{P_{N}}{P_{N-5}}\right) \right) $ 作為計算變異數的樣本(假設 $ N $ 是 5 的倍數)。雖然這看起來是最穩健的方法,但觀察次數大大減少。
有沒有辦法做得更好?我正在考慮使用重疊數據,但是我最終得到的樣本(例如 $ \left(\ln\left(\frac{P_{6}}{P_1}\right), \ln\left(\frac{P_{11}}{P_6}\right), … \right) $ ) 不是相互獨立的。
有沒有實用的方法來解決這個問題?
編輯
謝謝大家的答案。聽從 SRKX 的建議,我舉一個真實的例子。我使用了從 2012 年 1 月 4 日到 2012 年 12 月 28 日的 SPY 回報。這給出了一個包含 753 個價格的初始數據集,我從中考慮了 3 天的回報,希望能讓事情變得更容易。
在這個範例中,我可以建構 3 個不重疊的 3 天返回集,每個集包含 250 個值。我的意思是三天退貨 $ R_t = \ln \frac{S_t}{S_{t-3}} $ . 如果 $ r_t = \ln \frac{S_t}{S_{t-1}} $ 那麼顯然 $ R_t = r_{t-2}+r_{t-1}+r_t $ (為草率的符號道歉)。
如果將一個從 1 到 753 的數字分配給之前的收盤價,則使用非重疊數據建構的第一個樣本是:
$$ Sample_1 = (\ln \frac{S_4}{S_1}, \ln \frac{S_7}{S_4}, …, \ln \frac{S_{751}}{S_{748}}) $$ 第二個和第三個是 $ Sample_2 = (\ln \frac{S_5}{S_2}, \ln \frac{S_8}{S_5}, …, \ln \frac{S_{752}}{S_{749}}) $ , $ Sample_3 = (\ln \frac{S_6}{S_3}, \ln \frac{S_9}{S_6}, …\ln \frac{S_{753}}{S_{750}}) $ . 我不想為每日收益選擇先驗的特定分佈 $ r_t = \ln \frac{S_t}{S_{t-1}} $ . 我會假設是 $ E[r_i r_j] = 0 $ 為了 $ i \neq j $ , $ E[r_i]=0 $ (對於考慮的樣本是合理的)和 $ E[r_i^2] = \sigma^2 $ (情況並非如此,但無論如何讓我們保留它)。
在這些假設下,我預計樣本 1 和 2 之間的經驗相關性將是 $ \frac{2}{3} $ : $ \ln \frac{S_4}{S_1} = r_2+r_3+r_4 $ 和 $ \ln \frac{S_5}{S_2} = r_3+r_4+r_5 $ ,所以這些樣本的第一個元素有 2 個共同的每日收益,其餘項 ( $ r_2 $ 和 $ r_5 $ ) 不相關(彼此之間以及與 $ r_3+r_4 $ ),對於樣本的所有項都相同,因此結果。樣本 2 和 3 之間的相關性也是如此,樣本 1 和 3 之間的相關性將為 $ \frac{1}{3} $ (在這些假設下,相關性 $ N $ 天返回 $ p $ 天重疊是 $ \frac{p}{N} $ 如果我沒有記錯的話)。
我很幸運,因為我選擇的數據效果很好,我測量了樣本 1 和 2 之間的經驗相關性 = $ 0.63, $ 樣品 2 和 3 = $ 0.6 $ , 樣本 1 和 3 = $ 0.3 $ .
到目前為止一切順利,現在我可以計算 3 個樣本中的 3 個結果(年化)波動率:我發現 $ \sigma_1 = 18.4% $ , $ \sigma_2 = 17.1 % $ 和 $ \sigma_3 = 18.5% $ . 這些值的平均值是 $ 18% $ .
我也可以通過融合 3 個樣本來計算相同的東西(所以一切都是混合的),這給出了 $ 18% $ .
正如 SRKX 所說,所有這些結果最終幾乎相同……但我的問題真的是:這樣做有意義嗎?計算 3 個樣本變異數是否會增加一些資訊?它看起來像 $ N $ 天數返回,如果重疊 $ p $ 很小,樣本之間的相關性可以降低到“足夠小”的值(對於大 $ N $ ,這是我感興趣的):在這種情況下可以使用它嗎?
或者我應該只使用其他技術,比如引導第一個樣本,而不是嘗試使用重疊樣本?
我希望我不夠長和足夠清楚……這可能完全是微不足道的,但現在我還不清楚。
按照複雜度遞增的順序:
- 如果您可以假設您的過程是對數正態的,那麼要走的路是對最高頻率返回進行統計,然後將結果縮放到特定的範圍(請參閱此處的兩個參考資料和下一點)。
- 對於其他轉換機率(仍然假設 iid 增量),縮放可能不那麼簡單,但仍然可以在最壞的數值上執行(例如,通過 PDF 卷積)
- 如果您對擷取諸如自相關之類的特徵感興趣,那麼問題就會變得複雜,請參閱 Newey-West 和這個問題。
- 像 GARCH 這樣的時間序列模型擷取了偏離 iid 增量的演變特徵。您將模型擬合到最高頻率數據,然後使用它可以在任何給定範圍內恢復無條件 PDF(通過重新模擬或分析)。
後一個選項似乎是您正在尋找的。還有其他處理相關樣本的技術,例如重疊收益(不擬合特定模型),但它們的缺點在實踐中仍然很明顯,可能不會導致假設的準確性提高。
我相信你應該使用“通常”的每週日期,即 $ r_t = \ln \frac{S_t}{S_{t-5}} $ .
如果您使用其他方法,您實際上是在使用混合 5 個不同的每週系列,這並不完全正確。
無論如何,我不希望您的任何衡量標準有很大差異。嘗試分別計算它們,然後將它們全部計算在一起,您可能會得到相當相似的結果。如果是這樣,那麼只需使用我在第一行中提到的經典方式,您將避免爭議。