市場微觀結構

什麼是貿易分類的現代算法?

  • September 21, 2020

在處理交易數據時,例如來自 TAQ 的數據,一個常見的問題是確定交易是買入還是賣出。最常用的分類器是 Lee-Ready 算法(從盤中數據推斷交易方向,1991)。不幸的是,這種方法被認為是不准確的:Lee 和 Radhakrishna(推斷投資者行為:來自 TORQ 數據的證據,2000 年)報告說,Lee-Ready 錯誤地將 24% 的交易分類到價差內。

如何改進 Lee-Ready 的食譜?什麼是貿易分類的最佳算法?

有幾種方法可以使用交易價格和報價將攻擊者分類為“買入”或“賣出”。此外,許多這些方法在歷史上不得不處理不同步的數據流。

方法分類

我們可以將貿易分類方法大致分為四種:

  • 由Finucane (2000)提倡的滴答測試,將交易價格與之前的不同交易價格進行比較,上漲(下跌)是買入(賣出)的證據;
  • 中點測試,由Lee 和 Ready (1991)提倡,將交易價格與同時期的中點(買入價和賣出價的平均值)進行比較,高於(低於)中點的交易被歸類為買入(賣出),在中點的交易被解決進行滴答測試;
  • Ellis、Michaely 和 O’Hara (2000)提倡的買/賣測試,將交易價格與同期的買價和賣價進行比較,其中賣價(買價)的交易被歸類為買(賣),其他交易被解決通過滴答測試;和,
  • Rosenthal (2012)倡導的建模測試將上述所有測試納入線性模型,並考慮了自相關和交易時同期報價的不確定性。

備份方法

LR 和 EMO 方法的問題之一是它們可能是不確定的:可能發生的交易不在同時的買價或賣價,甚至可能發生在中間點。兩者都接近於滴答測試的預設值——因為它們被要求對每筆交易進行分類。

Chakrabarty、Li、Nguyen 和 Van Ness (2007)修改了 EMO 的備份規則:他們對價差之外或價差中間 40% 的交易使用分時測試;價差內最低 30% 內的交易價格被視為買入交易(因此被歸類為賣出),最高 30% 內的交易價格被視為賣出交易(並被歸類為買入)。

Rosenthal (2012) 從分時測試、無回退的中點測試和無回退的買賣測試以及這些測試的滯後版本中獲取證據。此外,買入/賣出測試術語使用接近買入或賣出的度量,這與 Chakrabarty等人類似,儘管它在處理價差之外的交易方面不是不對稱的。

同期行情?

許多這些方法中提到的另一個問題是交易和報價流不同步:報價更新可能發生在與交易發佈時不同的時間。通常,這些情況下的報價會快速更新,而交易的發布會有些延遲。

一些交易所對此進行了辯解,稱延遲讓做市商有時間進行對沖。然而,僅監管就提供了不同的激勵措施:報價必須始終是最新的,並且交易者必須按照他們的報價進行交易……而交易必須在很短的時間內發布(通常以秒為單位,相對永恆現代市場)。

使用什麼延遲?

LR 方法假設從報價更新到交易發布有 5 秒的延遲;因此,他們從交易時間回溯 5 秒。(請注意,這在他們使用的數據庫中是不准確的,因為這些記錄只能解析到秒。)即使他們承認數據有延遲,EMO 方法也不使用延遲。Vergote (2005)建議使用 2 秒延遲,而Henker 和 Wang (2006)建議使用 1 秒延遲。

使用延遲分佈

建模方法估計延遲分佈並使用它來估計與交易時間同時的買價和賣價(因此是中點)。該分佈表明納斯達克股票的平均延遲時間為 5 秒,紐約證券交易所股票的平均延遲時間為 0.8 秒,標準差為 3.9 秒和 1.0 秒。

在報價中搜尋最佳匹配

Jurkatis(2018,第三篇論文)採用了一種忽略延遲時間的新穎方法。這種方法修改了 EMO 方法,改為查找更新與交易最匹配的先前報價,以確定交易是在買入還是賣出時發生。該方法還允許多個可能的匹配。

更好的數據

一些市場在交易和報價數據之間沒有同步性。例如,來自 CME 的數據在同一流中具有交易和訂單簿更新。在這些數據中,報價在交易後立即更新,交易表明買方或賣方是侵略者。

雖然股票數據現在具有毫秒或微秒解析度的時間戳,但許多股票交易場所仍然存在交易和報價數據流之間的延遲。儘管股票市場的延遲有所減少,但交易數量也有所增加,這使得延遲問題仍然令人擔憂。

奇數交易的異常結果

羅森塔爾指出,零股交易(規模低於“整手”的交易,通常為 100 股)更難對整手交易進行分類。大多數方法對中間點的奇數手交易進行了錯誤分類,以至於“拋硬幣”會更準確。碎股訂單不受訂單處理和顯示規則保護的事實被認為是分類準確性差異的一個原因。

O’Hara、Yao 和 Ye (2014)指出,零股訂單也經常從 TAQ 等數據源中失去,並且這些訂單往往與基於資訊不對稱的更多交易相關聯。

雖然一些場所已經開始在其數據饋送中反映零股訂單(因此尊重零股訂單的訂單處理和顯示規則),但這仍然不是普遍的。截至目前,納斯達克可能會聚合零股訂單,只要它們的聚合至少為整手。

批量分類

Easley、Lopez de Prado 和 O’Hara (2016)建議改為對交易組進行分類,他們將其稱為批量分類。這種方法(和其他類似方法)面臨一些問題。

首先,他們正在解決這裡提出的不同問題。市場微觀結構中的許多不同問題需要將個別交易分類為買方或賣方發起。對一組交易進行分類會估計交易發起者(買方與賣方)的分佈,但它不會對單個交易進行分類。這使得這些方法對許多推論沒有幫助。

其次,這些方法也沒有明顯優於提到的個別分類方法。Andersen 和 Bondarenko (2015)以及Chakrabarty、Pascual 和 Shkilko (2015)表明 BVC 方法的分類準確度低於刻度測試或 LR 方法。

表現

最後,這些方法如何執行?在引用的許多文章中,有一個一致的性能模式:

  • BVC 測試做的最差,
  • 滴答測試比 BVC 測試做得更好,
  • 中點 (LR) 測試比刻度測試做得更好,
  • 報價(EMO)測試比中點測試做得更好,並且
  • Rosenthal(建模)和 Jurkatis 方法做得最好。

不幸的是,尚未對建模方法和 Jurkatis 方法進行比較。

引用自:https://quant.stackexchange.com/questions/8843