了解已實現波動率的樣本外性能指標
我在實際波動過程中擬合了幾個模型,然後繼續獲得樣本外結果。除了告訴模型 A 似乎比模型 B 更好之外,我正在努力解釋這些結果。特別是,我希望回答這個問題:“模型 A 是否具有令人滿意的預測性能?”。
我似乎傾向於 MAPE 和 MZ-R2(Mincer-Zarnowitz R-squared)。這些似乎是絕對的措施。然而,我沒有足夠的經驗來相信我的判斷。
更新:Diebold-Mariano 表。
ARFIMA(0,d,0) HAR(1,5,22) HAR(1,4,30) S-GARCH(1,1) GJR-GARCH E-GARCH REAL-GARCH ARFIMA(0,d,0) 1.00000 0.04714 0.04828 0.00005 0.00004 0.00000 0.48256 HAR(1,5,22) 0.04714 1.00000 0.29521 0.05598 0.05561 0.05718 0.01175 HAR(1,4,30) 0.04828 0.29521 1.00000 0.03824 0.03875 0.04002 0.01156 S-GARCH(1,1) 0.00005 0.05598 0.03824 1.00000 0.62604 0.81480 0.00031 GJR-GARCH 0.00004 0.05561 0.03875 0.62604 1.00000 0.73391 0.00030 E-GARCH 0.00000 0.05718 0.04002 0.81480 0.73391 1.00000 0.00002 REAL-GARCH 0.48256 0.01175 0.01156 0.00031 0.00030 0.00002 1.00000
您可以將損失與每個模型進行比較,並確定“最佳”模型是損失最小的模型。在許多大型研究的情況下,如果一個或多個模型受到不同損失函式的青睞,結果可能會模棱兩可。因此,我們想知道我們是否可以根據模型之間的損失差異來建構評估性能顯著性的統計測試。事實證明,我們可以,並且已經在學術界進行了廣泛的研究。
預測對比分析:
當我們想做預測比較分析時,我們想做一件事:測試預測差異是否在統計上不為零。如果我們讓 $ L(\theta_t, \Sigma_{it}) $ 成為你的損失函式(想想 QLIKE 或 MSE) $ \Sigma_{it} $ 成為模型的共變異數估計 $ i $ 有時 $ t $ 和 $ \theta_t $ 是您強大的代理(因為波動性是潛在的)。那麼損失差可以定義為 $ d_{ij,t}=L(\theta_t, \Sigma_{it}) - L(\theta_t, \Sigma_{jt}) $ 具有相應的構造零假設:
$$ H_0: \quad \mathbb{E}\left[d_{ij,t}\right] = 0, \qquad \forall : t. $$
建構檢驗統計量,我們需要通常通過引導損失差然後計算引導標準誤差得到的標準誤差(直覺且在足夠的規律性下,引導標準誤差將接近總體標準誤差)。請注意,每種比較方法之間的(複合)零假設可能略有不同。
這是許多預測比較測試的起點,包括著名的 Diebold-Mariano 測試,這是一種成對預測比較測試。存在大量不同的預測比較方法,其中大多數集中在一次比較多個樣本外預測。在列出大部分之前,我希望您考慮閱讀兩篇使用預測比較方法研究不同波動率模型(度量)的文章:
- Hansen、Peter R. 和 Asger Lunde (2005)。“波動率模型的預測比較:有什麼比 GARCH (1, 1) 更好嗎?” . 在本文中,作者使用多重預測比較分析來確定比較 330 個 ARCH 型模型是否優於普通 GARCH(1,1) 模型。它將讓您深入了解預測比較方法的使用。
- Liu、Lily Y.、Andrew J. Patton 和 Kevin Sheppard(2015 年)。“有什麼能超過 5 分鐘的 RV 嗎?跨多個資產類別的已實現措施的比較。” . 與上述文章的風格相同,Liu 等人。將 5 分鐘的已實現變異數與大量資產的一組替代已實現的日內波動度量進行比較。本文還使用了多種不同的多重預測比較方法,包括 Diebold-Mariano 檢驗。這篇文章非常實用,但一定會激發您的興趣!
許多預測比較方法的理論背景非常廣泛且難以理解。因此,人們傾向於選擇一些方法,並通過理解它們背後的直覺和結果來走得更遠。從我讀過的許多文章中,Diebold-Mariano 檢驗是成對比較的最愛,而模型可信度集是多重預測比較的最愛。
列出不同的預測比較方法:
- Diebold-Mariano 測試: Diebold、Francis X. 和 Robert S. Mariano (2002)。“比較預測準確性。 ”他們通過詳細說明測試的使用和濫用,製作了一篇更新的論文,以回應他們的原始論文。
- White 的測試(Reality check 或 RC): White, Halbert (2000)。“對數據窺探的現實檢查。 ”如上文第一篇文章所述,RC 測試“缺乏”能力,很難區分“好”和“壞”預測。
- Hansens 高級預測能力 (SPA): Hansen, Peter Reinhard (2005)。“對卓越預測能力的測試。 ”與RC相比,這種預測比較方法對於包含較差的預測更為穩健。
- Romano-Wolf 測試: Romano、Joseph P. 和 Michael Wolf (2005)。“逐步多重測試作為形式化的數據窺探。 ”這類似於 SPA,但主要區別在於 Romano-Wolf 測試辨識出比基準更好的模型集,而 SPA 詢問是否有任何預測更好的問題比基準。
- 模型置信集 (MCS) Hansen、Peter R.、Asger Lunde 和 James M. Nason (2011)。“模型可信度集。 ” 直覺地說,這個比較測試為您提供了一組模型,它們處於給定的“可信度”水平內,其中所選模型在樣本外預測能力方面“相等”。在我看來,這是從理論角度理解的最複雜的預測比較方法。在這方面,作者還發表了另一篇論文,冒充為使用 MCS 方法以及如何選擇最佳模型的“指南”。在這裡,它們也為測試奠定了直覺的基礎。
- Multi-Horizon SPA & MCS: R. Quaedvlieg (2020),“ Multi-Horizon Forecast Comparison。 ”在最近的這篇文章中,R. Quaedvlieg 提供了 SPA 和 MCS 測試的擴展,以聯合比較多個視野預測。他進一步得出結論,測試導致更連貫的結果。獨立地比較許多個體視野的模型預測,將隱含地給我們一個多重測試問題,導致更多的類型 1 錯誤,即。對空值的錯誤拒絕(意味著模型在給定的預測範圍內可能存在顯著差異)。因此,在有限樣本中,我們可能會發現錯誤指定的模型甚至會在人們可以考慮的眾多視野之一中勝過人口模型。比較所有視野共同保護我們免受這個問題的影響。多視野測試不僅限於經濟學,還可用於比較不同視野等的氣候預測。
Kevin Sheppard在 Python 筆記本中提供了 SPA、Romano-Wolf 和 MCS 測試的良好圖形說明。它們也在他的arch 包中實現。
我絕不是上述預測比較方法的專家。但是,您可以通過理解方法背後的直覺(選擇一兩個方法)以及如何解釋輸出來走得更遠。為了使用它們,不需要了解測試背後的理論結果。我希望這會有所幫助。