回測
樣本內長度與樣本外長度的理想比率是多少?
假設您正在執行一個量化策略組合,並且您開發了一個新的潛在策略以添加到組合中。為簡單起見,假設新策略獨立於現有策略。新策略依賴於 X 年前可用的數據。您繼續在數據集的“樣本內”部分上對新策略的參數進行回測和優化,同時保留“樣本外”部分進行驗證。新策略在您的投資組合中的權重將取決於其樣本外表現。你的目標是最大化你的整體夏普比率。樣本內長度與樣本外長度的理想比率是多少?
有趣的是,沒有科學理論表明應該將哪一部分數據分配給訓練和測試,結果可能對這些選擇非常敏感。
來自Ernest Chan 的量化交易(第 53-54 頁):
樣本外測試將您的歷史數據分為兩部分。保存數據的第二部分(更新的)以進行樣本外測試。當您建構模型時,在第一部分(稱為訓練集)上優化參數以及其他定性決策,但在第二部分(稱為測試集)上測試生成的模型。(這兩個部分的大小應該大致相等,但是如果訓練數據不足,我們至少應該有訓練數據三分之一的測試數據。
$$ … $$
有關更複雜的方法,請參閱David Aronson p. 的基於證據的技術分析。321-323。
我要補充一點,一旦修改策略以反映此類數據,它就不再是“樣本外”,或者換句話說:如果您優化策略“樣本外”,您將通過曲線產生數據窺探偏差不過合適!或者正如阿倫森所說:
為樣本外測試保留的數據的原始狀態的壽命很短。用過一次就丟了。