回測

回測時的生存偏差

  • November 18, 2019

我一直在做回測,我想看看我的程序是否有任何缺陷,因為它似乎好得令人難以置信。

基於市值 > 10B 的股票,回溯到 20 年的時間並進行回測。對於每隻股票,看歷史數據、股票圖表形態特徵等特徵,做一堆計算,給它打分。在每個時期,它都會挑選得分高的股票。

我看到的一件事是可能存在生存偏差。我篩選的股票清單今天的市值 > 10B。所以只包括今天倖存下來的人。那些倒閉的人在我不知情的情況下偷偷走了。包括那些倖存下來並變得足夠強大以擁有 10B 資本的人。所以這遠非理想。

如果可能的話,我想獲得一份 20 年前市值 > 10B 的股票清單。但是我從哪裡得到那個股票清單呢?還有其他方法可以避免這種偏見嗎?

試圖確定歷史市值是困難的(尤其是合併/收購/分拆以及擁有不同所有權/投票權的多個股票類別)。查看固定市值水平的另一個問題是它提供了一種形式的選擇偏差。時間越早,由於通貨膨脹的影響,包含的股票就越少。您可以使用通貨膨脹指數及時調整這一水平,但您可能還需要考慮與整體經濟規模相關的市值。

這裡的另一種策略是使用適合您市值參數的特定指數中的股票。您還需要退市股票和指數成分/會員數據。

許多指數在其方法中都內置了市值範圍:

  • 標準普爾 100 指數(前 100 強)
  • 標準普爾 500 指數(前 500 強)
  • 標普中型股 400 (501-900)
  • 標普小型股 600 (901-1500)
  • 羅素 1000(前 1000 名)
  • 羅素 2000 (1001-3000)
  • 羅素 3000(前 3000 名)

披露:Norgate Data 提供這方面的能力。

我不知道你的預算,遺憾的是,高質量的財務數據不是免費的。有幾個很好的數據提供者。您正在考慮每年為彭博、路透社、Factset、S&P Global 等公司花費低至中 5 位數。您可以為其他提供商花費更少的費用(Quandl 可能有也可能沒有您正在尋找的東西),但您的里程會有所不同。

引用自:https://quant.stackexchange.com/questions/49753