時序
您是否在自舉時間序列上優化模型?
作為 Quants,我們很快學會了優化模型,通過將模型擬合到歷史時間序列,例如某些股票的歷史每日收益。
但是,歷史上的每日收益序列只是一個實現,在許多可能源自相同的每日收益分佈的序列中。
因此,如果我將我的模型擬合到特定的每日收益實現——恰好是歷史序列——我可能會過度擬合模型。
優化模型不是更正確嗎,基於 N個增強的每日收益序列,所有這些都源自實際的歷史序列?
在從愚蠢到行業標準的範圍內,這種技術會在哪裡?**😋
時間序列數據的模擬不是一件小事,有許多方法可以確保您保留一些相關屬性(主要稱為依賴引導方法):
- 塊引導- 選擇連續的數據塊,以便它們足夠大以保留重要的自相關。
- 固定引導- 隨機塊大小
- 基於模型的引導- 擬合模型(例如 ARIMA)和引導殘差(IID 在理論上是可以的)。
- Monte Carlo - 擬合模型並根據殘差的理論分佈進行模擬。
- 條件 GAN - 以相關時間序列數據為條件並生成挑戰適當鑑別器的數據。
許多這些方法用於生成必要的統計數據,以測試許多可能策略中的一種是否具有統計上顯著的回報/夏普/其他績效指標。White 的現實檢查測試及其許多變體(由 Romano-Wolf 和 Hansen 等人的模型置信集)使用此多重假設測試框架在許多模型之間進行測試。這是一種模型選擇,與超參數微調非常相似。在我們的論文 GAN for Trading Strategies中,我們嘗試進行相對全面的文獻綜述,並使用 cGAN 生成更多數據進行微調。我們發現,總的來說,模型組合/集成方法效果更好。
無論如何,為更強大的預測器/更好的樣本外性能生成新數據的概念是相當合理的。