有哪些流行的方法可以最大限度地減少數據窺探?
是否有共同的事前或事後回測程序來確保量化交易策略具有真正的預測能力,而不僅僅是過去靠運氣的事情之一?當然,如果我們搜尋工作策略的時間足夠長,我們最終會找到一個。即使是在沒有告訴我們任何有關策略本身的任何資訊的前瞻方法中。
有些人談論懷特的現實檢查,但在這件事上沒有達成共識。
嚴格來說,數據窺探與樣本內與樣本外的模型選擇和測試不同,它必須處理基於相同數據集的假設的順序或*多次測試。*引用 Halbert White 的話:
當一組給定的數據多次用於推理或模型選擇時,就會發生數據窺探。當這種數據重用發生時,總是有可能獲得的任何令人滿意的結果可能僅僅是由於機會而不是產生結果的方法所固有的任何優點。
讓我舉個例子。假設您有一個單一資產收益的時間序列,並且您有大量候選模型系列。您在測試數據集上擬合每個模型,然後在保留樣本上檢查模型預測的性能。如果模型的數量足夠多,則一個模型提供的預測被認為是好的機率是不可忽略的。這與偏差-變異數權衡無關。事實上,每個模型可能已經在訓練集上使用交叉驗證或其他樣本內標準(如 AIC、BIC、Mallows 等)進行了擬合。有關典型協議和標準的範例,請查看 Hastie-Friedman 的第 7 章- Tibshirani 的“統計學習的要素””。更確切地說,問題在於同時執行多個假設檢驗*。*直覺地說,評估多個模型的標準應該更嚴格,而一種天真的方法是應用Bonferroni 校正。事實證明,這標準太嚴格。這就是Benjamini-Hochberg、White和Romano-Wolf發揮作用的地方。它們為模型選擇提供了有效的標準。這些論文涉及的內容太多,無法在這裡描述,但為了了解問題,我推薦 Benjamini-首先是 Hochberg,它既易於閱讀,又真正具有開創性。