數據

對沖基金在做什麼樣的數據清理/清理?

  • August 9, 2021

眾所周知,一些對沖基金只有少數博士只是在做數據清理。一整天。每天。

他們實際上在做什麼樣的數據清理?真的有那麼難嗎?這樣的話題有多少深度?為什麼他們需要博士學位才能做到這一點?

數據清洗對於許多大型機構來說很重要:

“眾所周知的事實是,一些對沖基金有少數博士只是在做數據清理”。請注意,許多將大量數據用於其內部模型的大型機構(銀行、養老金和對沖基金、保險等)通常都有自己的數據清理和收集部門。通常,為了加強內部量化模型,公司可能會依賴從另一家公司購買的外部數據,這些數據需要進一步清理才能可靠。

採用適當的數據清理是創建有效的量化模型/策略的重要部分,因為將嘈雜(清理不當)的數據輸入量化模型總是會產生不好的結果。老實說,我不認為您需要成為博士學位才能完成這項工作。然而,有大量求職量化開發人員/IT 人員希望在對沖基金工作。因此,對沖基金可以有選擇性地僱傭“最優秀的人”來完成這項工作,通常是博士。


簡單清潔程序的範例:

為了更好地了解,我提供了一個數據清理過程的快速範例。

當您使用高頻交易和報價 (TAQ) 股票數據(即盤中股票數據)時,您需要在數據有用之前對其進行清理。Barndorff-Nielsen 等人描述了一種眾所周知的清潔程序。(2009 年)。實踐中實現的核心:交易和報價。請參閱第 3.1 節),它為您提供了刪除異常值、異常交易、數據庫中時間戳和價格錯誤記錄等的必要步驟。在論文中,他們詳細分析了在應用更多指定的數據清理規則時實現的變異數如何急劇變化(參見第 4 節。數據分析)。但是,此清理過程僅適用於高頻庫存數據,並且在您需要清理替代數據時會有所不同。

為總結答案,我提供了 SPY 上任意一天的清潔與原始(嘈雜)交易數據的圖形說明。清潔程序完全遵循上述論文中提供的規則(點擊圖片以獲得更好的圖像質量):

在此處輸入圖像描述

我們看到清潔程序如何能夠檢測到異常值。此外,請注意盤前和盤後交易的奇怪行為。這是清潔步驟 P1 的主要原因。

引用自:https://quant.stackexchange.com/questions/66333