數據

訂單簿下採樣的正確方法是什麼?

  • March 25, 2021

我可以訪問訂單簿數據集,該數據集的採樣解析度對於我的沙盒實驗來說太高了。因此,我想知道,將訂單簿下採樣的正確方法是什麼,例如,從 1s 到 1m?現在,我只是拍攝間隔一定時間的快照 $ \Delta t $ ,但我不確定這是否是一種真正正確的方法。

提前致謝!

二次採樣或使用不同事件空間的兩個主要原因是(i)計算或空間易處理性和(ii)去噪/信號提取。

Sergei 的回應似乎集中在第一個問題上,我將更多地關注後者。這兩個目標可以不同。例如,期權和場外交易數據的交易訂單比率可能超過 1:10,000,因此佔用交易空間將非常有效地減少儲存需求,但不適合建模。

交易從業者使用的典型方法包括:

  • **交易(滴答)空間。**當交易發生時,拍下這本書的快照。
  • **書頂更換空間。**當書的頂部發生更改時,拍攝書的快照。
  • **上行/下行空間。**當價格上漲或下跌時拍下這本書的快照。
  • **% ADV 桶。**預測成交量,然後以每日成交量百分比以統一的時間間隔搶購圖書。
  • **水平形成或耗盡空間。**每次在市場內形成新的價格水平或水平耗盡時,對這本書進行快照。
  • **時間空間。**例如,每隔一秒、一分鐘等拍攝一本書的快照。

相反,基於時間和體積的空間有其優點——即大型參與者經常使用它們,因此時間和體積空間中的事件變得資訊豐富:

  • 執行經紀人和大型量化基金經常使用 % ADV 桶進行多層次優化。這可能部分是由於計算的易處理性,因為即使是最快的執行優化器也可能需要幾秒鐘來計算權重的整個軌跡。但儘管如此,它會產生一種自我實現的效果,其中 % ADV 對其他人來說變得很重要。)
  • 頂級做市商也有大型團隊使用分鐘頻率數據,尤其是在現金股票中,儘管可以訪問訂單簿數據,因為他們模型中使用的許多數據集歷史上只能在子採樣時間空間中使用。
  • 當您在市場開放或 FOMC 對訂單簿活動進行建模時,這一點非常明顯。大型宏觀參與者不一定在這些時間進行交易以響應東部時間上午 9.30 或下午 2.30 之後的第一次交易或預訂事件,他們通常上午 9.30 或下午 2.30 進行交易。

這些方法的變體可以參數化。例如:

  • **剩餘重置了嗎?**如果您使用 500 卷空間,而攻擊者以 600 的價格進入,當交易到達 400 時,您是否再次拍攝快照?
  • **您是否多次刷新事件?**如果您使用 1 個刻度的移動空間,並且買入來清除 3 個級別的報價。您是否使用相同的時間戳將事件連續列印 3 次?
  • **什麼是參考儀器?**如果您正在使用兩種儀器 A 和 B 建構橫截面設計矩陣,當 A、B 或 A+B 發生變化時,您會列印事件嗎?
  • **你還保留任何記憶嗎?**例如,FIFO 工具的分時空間交易往往在其符號上高度自相關。另一方面,按比例工具的分時空間交易顯示出較少的自相關,因為參與者可能會刮掉他們的溢價。因此,也許您可以上調/下調要在具有重複標誌的交易上列印的事件數量。
  • **你二次抽樣多少?**我認為人們在實際表示空間時經常使用術語subsampling。例如,您可以每 10 筆交易列印一次,而不是每 1 筆交易列印一次。

確定最佳採樣頻率的原則方法是經典的偏差-變異數權衡,可以在信號處理和去噪文獻中找到範例。處理這個問題的實際方法是使用一些你有很強的先驗知識(即你在以前的交易公司使用過它),然後在樣本外數據上交叉驗證你的模型。

引用自:https://quant.stackexchange.com/questions/61921