在開始使用 Thomson Reuters Datastream 進行分析之前,需要哪些數據篩選方法?
所以我目前的研究重點是動量交易策略。我下載了不同所有股票指數的成分(包括價格、回報指數、市值和股息收益率)。對於 Datastream 我必須查看哪些類型的錯誤?
在處理 Datastream 數據之前,是否必須使用一些常用方法?(我正在使用 R 進行分析)
例如,有很多天價格/回報在 5 天內根本沒有變化。我必須排除這些值嗎?
由於在我的大學中提取大型數據集需要大量時間,是否還有其他來源(不一定是免費的)用於高質量數據請求?(例如過去 30 年在特定新興市場證券交易所交易的所有股票的價格和 MV)。我認為如果我一次請求 5k 股票,我大學的電腦會爆炸。
初步的
Thomson Reuters Datastream 是經驗金融中非美國數據最常用和被廣泛接受的數據源之一。在進行任何計算之前,處理財務數據都基於許多過濾器。我的回答特別關注 Datastream 的“數據清理”方法,這些方法發表在學術期刊上並常用於研究論文中——所以我不會涉及基本的過濾器,例如Winsorizing和其他方法。
因斯/波特 (2006)
本文利用 CRSP 數據庫分析了來自 Datastream 的美國數據,並提出了幾種數據清理方法。結論:
我們記錄了覆蓋率、分類和數據完整性等重要問題,並發現天真地使用 TDS 數據會對經濟推斷產生很大影響。
過濾器:
TDS 在內部將價格四捨五入到最接近的美分,當價格較小時,這可能會導致計算出的收益出現重大差異。作為一種解決方案,放棄(即設置為
NA
)觀察(在您的投資組合形成或變數計算時)上月末價格低於1.00美元(或以本國貨幣計)。論文發現了許多數據錯誤的例子,其中價格低得離譜,因此回報率也很高。
NA
通過設置為缺失/任何返回的此類錯誤的螢幕 $ R_t $ 300%以上,一個月內轉回。如果 $ R_t $ 或者 $ R_{t-1} $ 大於 300% 並且 $ (1+R_t)(1+R_{t-1})-1 $ 小於 50%,他們設置 $ R_t $ 和 $ R_{t-1} $ 到失踪。一級篩選:
GEOG
刪除所有數據類型與您感興趣的國家/地區不同的非本地公司。TYPE
通過消除數據類型不是股權(“EQ”)的所有觀察結果,排除美國存託憑證和其他非普通股權。2 級篩選:此篩選需要比 1 級更多的努力,並且基於分析數據類型
NAME
和篩選表明證券為非普通股的關鍵詞或片語(例如,名稱中包含“REIT”或表明參與性說明)。如我在此處的回答中所述,您可以使用“未填充”數據或按照本文刪除樣本末尾的所有零回報,直到第一個非零回報。
施密特等人。(2011)
附錄 A(尤其是表 A.2)列出了有關數據篩選的詳細資訊。
- 國家/地區列表:有 (1) 個 Worldscope 列表,以“WSCOPE”或“WS”開頭,以兩個字母的國家/地區程式碼結尾。(2) 研究列表以“F”開頭,以三到五個字母的國家程式碼結尾。(3) 死名單以“DEAD”開頭,以兩個字母的國家程式碼結尾。
我認為最重要的篩選方法是:
- 篩選主要股票列表(數據類型
MAJOR
應等於“Y”)。- 螢幕DS04:將價格大於1,000,000本幣的所有退貨設置為缺失。
- 螢幕 DS09:將所有回報設置為缺失,每月回報大於 990%。
坎貝爾等人。(2010)
除了 Ince/Porter (2006) 2 級名稱篩選,他們建議以下可疑詞部分:“CV”、“CONV”、“CVT”、“FD”、“OPCVM”、“PREF”、“PF”、 “PFD”、“PFC”、“PFCL”、“權利”、“RTS”、“單位”、“單位”、“WTS”、“WT”、“WARR”、“保證”和“保證”。
結論
認真的研究是艱苦的工作——尤其是數據清理和样本建構。還有許多其他(通常是免費的)資源,例如雅虎財經。但是,這些來源中存在許多基本錯誤,遠比上面提到的 Datastream 中的缺陷嚴重。對於在(高質量)金融期刊上發表的任何認真嘗試,我可能不推薦這些免費資源。