回歸
模型的自由維度數量如何影響其所需的樣本大小?
向模型添加更多變數通常會提高其準確性。然而,如果沒有充分的分析,它也可能導致曲線擬合。
另一個問題(需要多少數據來驗證短期交易策略?)收到了與模型標準誤差的統計顯著性相關的答案。但是,我想知道是否有人對模型中使用的樣本數據與維度的比率有什麼結果(或分析) 。我的直覺使我使用的樣本數據點至少比作為維度實現的變數多 30 倍,但我對這種方法並不滿意。
我想這將取決於模型的特徵(線性回歸、SVM、非線性模型等會有所不同,並且還取決於所使用的變數之間的關係)但是是否有一個通用框架來估計這個?
以下是判斷模型擬合質量的好方法。
總的來說,這是一個非常困難的問題。最接近一般框架的是 Vapnik-Chervonenkis 理論。您可以在 Hastie、Tibshirani 和 Friedman 撰寫的“統計學習的要素”第 7.9 章中了解這一點,可以從他們的網站下載。
但請注意,這是一種理論方法。通常,更多的啟發式方法會更好地為您服務。本書的第 7 章也涵蓋了這些內容。