歷史數據

當用作將技術分析與機器學習集成的輸入數據時,股票之間是否應該存在關係?

  • October 28, 2018

在我的研究的第一階段,我將技術分析與深度學習相結合。我想知道我應該如何選擇(或分組)股票作為輸入數據,以及所選股票之間是否應該存在關係。

更詳細地說,我看到研究人員使用不同的股票,一些剔除低於特定市值的公司股票,另一些使用標準普爾 500 指數的整個歷史價格圖表,我找不到他們選擇的原因。是否有選擇數據集的最佳實踐,還是我應該直覺地進行?

我經常看到一些例外情況:

  1. 不包括交投清淡的股票。您的數據饋送中顯示的價格可能與實際可交易價格無關。
  2. 過濾 ADR/Pink 本地人。您可以找到在多個地方上市的股票,這些股票的上市方式會讓您認為它們非常適合配對交易,而實際上它們是相同的股票,只是上市有所不同。例如 CS (Credit Suisse NYSE ADR) 和 CSGKF (Credit Suisse Pink Sheet Local)。共線性的篩選也很有幫助……
  3. 公司收購公告後剔除股票。一旦以固定金額收購股票,它將失去您嘗試分析的許多屬性。
  4. 處理時間同步問題。一些數據集會向您顯示在不同時間點獲取的“收盤價/結算價”。例如,美國股票收盤價在美國東部標準時間下午 4:00 計算,石油合約收盤價在美國東部標準時間下午 2:30 計算,債券期貨收盤價在下午 3:00 計算。如果您的算法告訴您在 XOM 收盤價高於 20 天移動平均線時買入石油,並且它認為您可以在下午 4:00 以 2:30 的價格進行交易,那麼您可以想像會發生的錯誤。

還有一件重要的事情要重新篩選:

許多數據集將刪除退市/收購的股票。在分析歷史數據時,您需要確保您的數據集包含您當時實際交易的候選人姓名。

引用自:https://quant.stackexchange.com/questions/42364