回測
非監督式學習和样本外
假設我們得到 $ N $ 樣本,假設是 1 小時解析度的每日匯率的小時間序列 - 為了論證。每個樣本是一個 $ 24 $ 元素向量 $ x $ .
然後我們繼續使用我們最喜歡的非監督式學習算法進行分群,比如 K-means。假設我們使用 $ k $ 類。
之後,我們觀察以班級為條件的接下來幾天的平均回報值。意思是,在課堂上的日子 $ k=1 $ 我們有平均回報 $ \mu_1 $ 次日。
如果一天看起來像上課,那麼聲明如下 $ c $ 那麼明天你可以期待回報 $ \mu_c $ .
這是我的問題:
我們在這個過程中是否違反了任何規則?我們是否應該儲存一些 $ N $ 沒有樣品性能的天數?在我看來,即使談論樣本外和样本內也是沒有意義的,因為算法只使用向量 $ x $ 並且完全不知道第二天的回報。
您在樣本內數據上形成集群。新數據與這些集群的符合程度只能從樣本外數據中確定。因此,您正在估計集群的泛化。
如果您不分離數據,那麼您可能會發現僅在未來出現的集群,並且任何相關的遠期收益都將與這些集群相關聯。