用 RMSE 測量變異數的無偏估計量?
一些人認為均方根誤差 (RMSE)是衡量變異數估計好壞的最佳方法。你經常看到它被引用為:
$ RMSE=\sqrt{\frac{1}{n}\sum_{i=1}^n(\hat{\sigma_i} - \sigma_i)^2} $
在哪裡 $ \hat{\sigma} $ 是波動率的估計,而 $ \sigma $ 是實際波動率。
我的問題是:什麼是 $ \sigma $ 在這種情況下?假設 $ \hat{\sigma} $ 是前一天的已實現波動率(即 $ RV = \sum_{t=0}^N r_t $ 在哪裡 $ r_t $ 是 5 分鐘的回報),實際波動率只是第二天的絕對回報嗎?
均方根誤差與效率有關。除非您添加該限制,否則它不限於無偏估計量。如果您不這樣做,那麼您會發現最大概似估計量或貝氏估計量在一般情況下會具有較低的平方損失。
讓我們暫時忽略 $ \sigma $ 作為波動率度量並將其推廣到 $ \theta $ 一個感興趣的參數。它可以是位置中心、尺度、形狀、偏斜、峰度或其他任何東西,包括分位數或分位數。
如果 $ \hat{\theta} $ 是估計量,則估計量的效率為 $ E[(\hat{\theta}-\theta)^2]. $ RMSE 只是一種轉換。
如果是 $ E[(\hat{\sigma}_t-\sigma_t)^2] $ , 這 $ \hat{\sigma_t} $ 是已實現的波動率,這顯然是可觀察到的。這 $ \sigma_t $ 是當天真實但不可觀察的波動率。它是一個參數並且未知。
我創建了一些 R 程式碼來從標準正態分佈中生成一千個大小為 10 的樣本,以便您可以以圖形方式查看它們。我忘了設置種子,但是對於這個圖形,最大概似估計量 (MLE) 的 MSE 是 0.19677,而 Pearson 和 Neyman (PN) 無偏估計量的 MSE 是 0.22797。無偏估計器的效率大約降低了 15.8%,但本質上更準確。權衡是在精度和準確性之間。
請注意,在經濟學中,有時通過找到實際值減去預測值的 RMSE 來估計 RMSE。請注意,它是總體 RMSE 的有偏估計量。
library(ggplot2) library(export) rm(list = ls()) x<-matrix(rnorm(10000),ncol = 1000,nrow = 10) variance_ML<-function(A){ n<-length(as.vector(A)) x_bar<-sum(A)/n variance<-sum((A-x_bar)**2)/n return(variance) } variance_PN<-function(A){ n<-length(as.vector(A)) x_bar<-sum(A)/n variance<-sum((A-x_bar)**2)/(n-1) return(variance) } MLE<-apply(x,2,variance_ML) PN<-apply(x,2,variance_PN) MSE_MLE<-sum((MLE-1)**2)/length(MLE) MSE_PN<-sum((PN-1)**2)/length(PN) graphical_frame<-data.frame(MLE,PN) g<-ggplot(data = graphical_frame)+geom_density(aes(x=MLE),kernel="gaussian",color="red",show.legend = TRUE)+geom_density(aes(PN),kernel="gaussian",color="blue",show.legend = TRUE) h<-g+labs(title = "Density Estimate of MLE(Red) and Pearson-Neyman Unbiased Estimator (Blue)",x="Estimator",y="Density") graph2png(h,file="TBD")
我也在研究這個。
根據Ait-Sahalia、Mykland 和 Zhang (2005),他們只是假設 $ \sigma $ = 股票價格的 30%。
根據Bandi 和 Russell (2008),他們計算了股票價格在比抽樣子區間更長的時間段內的標準差,比如 1 天 = 6.5 小時的交易。然後將標準偏差縮小到採樣子間隔的單位,例如 1 分鐘,對於 $ \sigma $ .