在開始使用 Thomson Reuters Datastream 進行分析之前，需要哪些數據篩選方法？

May 8, 2022

所以我目前的研究重點是動量交易策略。我下載了不同所有股票指數的成分（包括價格、回報指數、市值和股息收益率）。對於 Datastream 我必須查看哪些類型的錯誤？
在處理 Datastream 數據之前，是否必須使用一些常用方法？（我正在使用 R 進行分析）
例如，有很多天價格/回報在 5 天內根本沒有變化。我必須排除這些值嗎？
由於在我的大學中提取大型數據集需要大量時間，是否還有其他來源（不一定是免費的）用於高質量數據請求？（例如過去 30 年在特定新興市場證券交易所交易的所有股票的價格和 MV）。我認為如果我一次請求 5k 股票，我大學的電腦會爆炸。

初步的
Thomson Reuters Datastream 是經驗金融中非美國數據最常用和被廣泛接受的數據源之一。在進行任何計算之前，處理財務數據都基於許多過濾器。我的回答特別關注 Datastream 的“數據清理”方法，這些方法發表在學術期刊上並常用於研究論文中——所以我不會涉及基本的過濾器，例如Winsorizing和其他方法。
因斯/波特 (2006)
本文利用 CRSP 數據庫分析了來自 Datastream 的美國數據，並提出了幾種數據清理方法。結論：
我們記錄了覆蓋率、分類和數據完整性等重要問題，並發現天真地使用 TDS 數據會對經濟推斷產生很大影響。
過濾器：
TDS 在內部將價格四捨五入到最接近的美分，當價格較小時，這可能會導致計算出的收益出現重大差異。作為一種解決方案，放棄（即設置為NA）觀察（在您的投資組合形成或變數計算時）上月末價格低於1.00美元（或以本國貨幣計）。
論文發現了許多數據錯誤的例子，其中價格低得離譜，因此回報率也很高。NA通過設置為缺失/任何返回的此類錯誤的螢幕 $ R_t $ 300%以上，一個月內轉回。如果 $ R_t $ 或者 $ R_{t-1} $ 大於 300% 並且 $ (1+R_t)(1+R_{t-1})-1 $ 小於 50%，他們設置 $ R_t $ 和 $ R_{t-1} $ 到失踪。
一級篩選：
GEOG刪除所有數據類型與您感興趣的國家/地區不同的非本地公司。
TYPE通過消除數據類型不是股權（“EQ”）的所有觀察結果，排除美國存託憑證和其他非普通股權。
2 級篩選：此篩選需要比 1 級更多的努力，並且基於分析數據類型NAME和篩選表明證券為非普通股的關鍵詞或片語（例如，名稱中包含“REIT”或表明參與性說明）。
如我在此處的回答中所述，您可以使用“未填充”數據或按照本文刪除樣本末尾的所有零回報，直到第一個非零回報。
施密特等人。(2011)
附錄 A（尤其是表 A.2）列出了有關數據篩選的詳細資訊。
國家/地區列表：有 (1) 個 Worldscope 列表，以“WSCOPE”或“WS”開頭，以兩個字母的國家/地區程式碼結尾。(2) 研究列表以“F”開頭，以三到五個字母的國家程式碼結尾。(3) 死名單以“DEAD”開頭，以兩個字母的國家程式碼結尾。
我認為最重要的篩選方法是：
篩選主要股票列表（數據類型MAJOR應等於“Y”）。
螢幕DS04：將價格大於1,000,000本幣的所有退貨設置為缺失。
螢幕 DS09：將所有回報設置為缺失，每月回報大於 990%。
坎貝爾等人。(2010)
除了 Ince/Porter (2006) 2 級名稱篩選，他們建議以下可疑詞部分：“CV”、“CONV”、“CVT”、“FD”、“OPCVM”、“PREF”、“PF”、 “PFD”、“PFC”、“PFCL”、“權利”、“RTS”、“單位”、“單位”、“WTS”、“WT”、“WARR”、“保證”和“保證”。
結論
認真的研究是艱苦的工作——尤其是數據清理和样本建構。還有許多其他（通常是免費的）資源，例如雅虎財經。但是，這些來源中存在許多基本錯誤，遠比上面提到的 Datastream 中的缺陷嚴重。對於在（高質量）金融期刊上發表的任何認真嘗試，我可能不推薦這些免費資源。

引用自：https://quant.stackexchange.com/questions/46713

在開始使用 Thomson Reuters Datastream 進行分析之前，需要哪些數據篩選方法？

初步的

因斯/波特 (2006)

施密特等人。(2011)

坎貝爾等人。(2010)

結論

相關問答

什麼是最好的實時期權數據 API？

如何獲取 Adj.Open、最高價和最低價？

個人理財公司如何訪問其客戶的投資賬戶？

獲取用於商業用途的美國股票數據？

NumPy 可以計算百分比更改它在多個儀器圖表中的顯示方式嗎？

如何建構股票市場數據數據庫