程式

在開始使用 Thomson Reuters Datastream 進行分析之前,需要哪些數據篩選方法?

  • May 8, 2022

所以我目前的研究重點是動量交易策略。我下載了不同所有股票指數的成分(包括價格、回報指數、市值和股息收益率)。對於 Datastream 我必須查看哪些類型的錯誤?

在處理 Datastream 數據之前,是否必須使用一些常用方法?(我正在使用 R 進行分析)

例如,有很多天價格/回報在 5 天內根本沒有變化。我必須排除這些值嗎?

由於在我的大學中提取大型數據集需要大量時間,是否還有其他來源(不一定是免費的)用於高質量數據請求?(例如過去 30 年在特定新興市場證券交易所交易的所有股票的價格和 MV)。我認為如果我一次請求 5k 股票,我大學的電腦會爆炸。

初步的

Thomson Reuters Datastream 是經驗金融中非美國數據最常用和被廣泛接受的數據源之一。在進行任何計算之前,處理財務數據都基於許多過濾器。我的回答特別關注 Datastream 的“數據清理”方法,這些方法發表在學術期刊上並常用於研究論文中——所以我不會涉及基本的過濾器,例如Winsorizing和其他方法。


因斯/波特 (2006)

本文利用 CRSP 數據庫分析了來自 Datastream 的美國數據,並提出了幾種數據清理方法。結論:

我們記錄了覆蓋率、分類和數據完整性等重要問題,並發現天真地使用 TDS 數據會對經濟推斷產生很大影響。

過濾器:

  • TDS 在內部將價格四捨五入到最接近的美分,當價格較小時,這可能會導致計算出的收益出現重大差異。作為一種解決方案,放棄(即設置為NA)觀察(在您的投資組合形成或變數計算時)上月末價格低於1.00美元(或以本國貨幣計)。

  • 論文發現了許多數據錯誤的例子,其中價格低得離譜,因此回報率也很高。NA通過設置為缺失/任何返回的此類錯誤的螢幕 $ R_t $ 300%以上,一個月內轉回。如果 $ R_t $ 或者 $ R_{t-1} $ 大於 300% 並且 $ (1+R_t)(1+R_{t-1})-1 $ 小於 50%,他們設置 $ R_t $ 和 $ R_{t-1} $ 到失踪。

  • 一級篩選:

    • GEOG刪除所有數據類型與您感興趣的國家/地區不同的非本地公司。
    • TYPE通過消除數據類型不是股權(“EQ”)的所有觀察結果,排除美國存託憑證和其他非普通股權。
  • 2 級篩選:此篩選需要比 1 級更多的努力,並且基於分析數據類型NAME和篩選表明證券為非普通股的關鍵詞或片語(例如,名稱中包含“REIT”或表明參與性說明)。

  • 如我在此處的回答中所述,您可以使用“未填充”數據或按照本文刪除樣本末尾的所有零回報,直到第一個非零回報。

施密特等人。(2011)

附錄 A(尤其是表 A.2)列出了有關數據篩選的詳細資訊。

  • 國家/地區列表:有 (1) 個 Worldscope 列表,以“WSCOPE”或“WS”開頭,以兩個字母的國家/地區程式碼結尾。(2) 研究列表以“F”開頭,以三到五個字母的國家程式碼結尾。(3) 死名單以“DEAD”開頭,以兩個字母的國家程式碼結尾。

我認為最重要的篩選方法是:

  • 篩選主要股票列表(數據類型MAJOR應等於“Y”)。
  • 螢幕DS04:將價格大於1,000,000本幣的所有退貨設置為缺失。
  • 螢幕 DS09:將所有回報設置為缺失,每月回報大於 990%。

坎貝爾等人。(2010)

除了 Ince/Porter (2006) 2 級名稱篩選,他們建議以下可疑詞部分:“CV”、“CONV”、“CVT”、“FD”、“OPCVM”、“PREF”、“PF”、 “PFD”、“PFC”、“PFCL”、“權利”、“RTS”、“單位”、“單位”、“WTS”、“WT”、“WARR”、“保證”和“保證”。


結論

認真的研究是艱苦的工作——尤其是數據清理和样本建構。還有許多其他(通常是免費的)資源,例如雅虎財經。但是,這些來源中存在許多基本錯誤,遠比上面提到的 Datastream 中的缺陷嚴重。對於在(高質量)金融期刊上發表的任何認真嘗試,我可能不推薦這些免費資源。

引用自:https://quant.stackexchange.com/questions/46713