回歸

樣本小且不相關時的回歸模型

  • August 28, 2016

我在一次 quant 工作的現場面試中收到了這個問題,但我仍在摸索如何解決這個問題。任何幫助,將不勝感激。


Quant 先生認為,過去和未來的日內回報之間存線上性關係。所以他想測試一下這個想法。為方便起見,他決定使用正常時間網格 dt 參數化他的數據集中的回報,其中 $ d=0, …, D-1 $ 標籤日期和 $ t=0, …, T-1 $ 日內時間段。例如,如果我們將一天分成 10 分鐘的間隔,那麼 $ T = 1440 / 10 $ . 他寫在這個時間網格上的模型有以下形式:

$ y_{d,t} $ $ = $ $ \beta_t $ * $ x_{d,t} $ + $ \epsilon_{d,t} $

在哪裡 $ y_{d,t} $ 是時間間隔內的回報 $ (t,t+1) $ 和 $ x_{d,t} $ 是前一個時間間隔的回報, $ (t–1,t) $ 在某一天 $ d $ . 換句話說,他認為之前的 10 分鐘收益預測了未來 10 分鐘的收益,但它們之間的係數可能會在盤中發生變化。

當然,要適合 $ \beta_t $ 他可以使用 $ T $ 普通最小二乘回歸,每個“ $ t $ “, 但:

(a) 他的數據集相當小 $ D $ =300, $ T $ =100;

(b) 他認為信號非常小,充其量與 5% 的目標相關。

他希望一些可以結合附近盤中時間的回歸的機器學習方法可以提供幫助。

你將如何解決這個問題?提供的數據是 $ x $ 大小預測因子矩陣 $ 300\times100 $ 和一個 $ y $ 大小目標矩陣 $ 300\times100 $ .

這篇文章很老了,但確實是一個有趣的問題。以下是我將如何去做:

在回歸中 $ y_n = \alpha + \beta x_n + u_n $ 斜率係數的估計量是 $ \beta = \text{cov}(x, y)/\text{std}(y) $ 為了避免分心,讓我們暫時假設一切都是標準化的:均值為零,變異數為一。然後,斜率係數只估計為 $ \beta = (1/N) \sum_n x_n y_n $ . 我想專注於這個數量以激發策略。

回到你的符號,我們有 $ D $ 每一天分成 $ T $ 切片。在獨立查看每個切片的情況下,每個切片的斜率由下式給出

$$ \beta_t = \frac{1}{D} \sum_d x_{d,t}y_{d,t} $$ 正如您所指出的,這是一個極端,如果真正的依賴性很小,則可以給出非常不穩定的估計。雜訊將淹沒信號,並且每個切片與相鄰切片的估計值將非常不同。 另一個極端是忘記切片,對所有切片進行單一估計。這將等於

$$ \beta_\infty = \frac{1}{TD} \sum_t \sum_d x_{d,t} y_{d,t} $$ 顯然,這是穩健的,但忽略了日內波動。那麼問題來了:在這兩個極端之間是否有一個方案? 如果我們寫 $ \beta_\infty $ 方面 $ \beta_t $ s,那麼我們可以激發這樣的方案

$$ \beta_\infty = \frac{1}{T} \sum_t \left[ \frac{1}{D} \sum_d x_{d,t} y_{d,t} \right] = \frac{1}{T} \sum_t \beta_t $$ 剛性估計器只是切片估計器的平均值。只要你有一個全域平均值,你就可以用一個核心來代替本地平均值。這將有效地匯集來自附近切片的資訊。 如果我採用核心函式 $ K_h $ 帶頻寬 $ h $ ,然後對於每個時間片 $ t $ 我可以定義權重

$$ w_{t,\tau} = \frac{K_h(t-\tau)}{\sum_{t’} K_h(t’-\tau)} $$ 然後,我估計的切片斜率 $ t $ 是(誰)給的

$$ \beta^h_t = \sum_\tau w^h_{t,\tau} \beta_\tau = \frac{1}{D} \sum_\tau \sum_d w^h_{t,\tau} x_{d,\tau} y_{d,\tau} $$ 您可以確認,隨著頻寬變為無窮大,所有權重都變為 $ 1/T $ 我們最終得到 $ \beta_\infty $ ; 隨著頻寬變為零,權重變為零,除了 $ \tau=t $ 我們最終得到了單片 $ \beta_t $ . 這是一個草圖,可以更精確地解釋隨時間變化的波動性、手段等。我想使用核心是“機器學習”位。

正如評論中暗示但未明確說明的那樣,這裡存在多個問題。我將專注於錯誤術語。所述回歸違反了最小二乘的許多條件。顯然會有自相關誤差和異變異數。其次,大多數波動和交易發生在交易日的開始和結束時,因此將這些間隔視為相等是不合適的。此外,根據安全性,每隔 10 分鐘可能會有大量時間段價格沒有變化,因此您也很幸運能夠錯過觀察結果。由於這是一個測試問題,而不是真實問題,因此指出這些問題表明您了解最小二乘的假設和弱點。我也真的無法理解您的符號,也無法理解您真正擁有多少數據。因此,在不了解您的數據集的情況下,我只是建議我將日子分成幾部分並獨立估計時期,並繪製一天中的 beta 和回歸統計數據以尋找模式。

引用自:https://quant.stackexchange.com/questions/18110