時間序列

從雜訊數據中提取信號

  • June 18, 2015

考慮一個場景,其中 Y_t 表示價格變化的百分比,我們希望使用 X_t 來預測 Y_t。我們假設 X_t 是我們在 Y_t 被揭示之前獲得的資訊。

假設實際上 Y_t = 0.01*X_t + e_t (beta = 0.01),其中 e_t ~ N(0,1)。此外,X_t ~ N(0,1)。假設我們有 1000 個歷史數據點要測試。這會在模擬 1000 次估計時生成 beta 分佈:

在此處輸入圖像描述

幾個問題:

1)這種方法在金融領域是一種可行的賺錢策略嗎?首先,我所做的假設已經非常樂觀(Y_t,X_t 超過 1000 個樣本,並且真正的關係是線性的)。然而,由於雜訊,估計參數的變異數非常高,40% 的參數是錯誤的符號。添加更多 rhs 變數可能只會使情況變得更糟。

即使假設我們得到 beta = 0.01,信號也非常小,以至於當策略表現不佳時,我們將有很高的錯誤率錯誤地拒絕我們的信號。

2)什麼是可能的解決方案?如果我們有足夠的數據(HFT?),我們可以精確地估計小信號。如果我們正在查看較低頻率的時間序列(每日數據?)怎麼辦?尋找具有更高 beta 的 Z_t 的另一種解決方案是什麼?但是,鑑於市場相對有效,為什麼還要繼續存在大貝塔呢?我們是否需要在回歸的 RHS 中添加更多低信號變數(但這只會增加變異數)?

另一種獲得更高“beta”的方法似乎是 stat arb?如果 Y_t 和 X_t 是協整價格序列的同期股票價格,我們可以預期 beta 大到足以更精確地估計(相對於它的大小)。然而,我已經讀到(雖然我顯然沒有第一手經驗)統計套利利潤一直在下降,因為現在每個人都知道這個想法。

是的,這些是賺錢策略的基本組成部分。

為了部分解決您提到的問題(小/低正均值/具有大標準誤差的利潤),您可以同時調查許多資產。這個想法是利用中心極限定理。

假設每個資產的信號都是獨立同分佈的,並且每個信號 $ i=1,2,.., N $ 可以讓你賺錢 $ r_t^{(i)} \sim \mathbb{N}(\mu, \sigma^2) $ 如果你完全投資於那個信號,在哪裡 $ \mu $ 與 $ \sigma $ . 中心極限定理告訴我們

$$ \sum_{i=1}^N \frac{1}{N} r_t^{(i)} \sim \mathbb{N}(\mu, \sigma^2/N) $$ 所以現在你的投資組合利潤不會受到傷害,但標準誤差要小得多 $ \sigma^2/\sqrt{N} $ . 服用 $ N $ 到一個很大的值,比如 1000,並通過戰略性地利用槓桿,您可以使您的投資組合利潤具有吸引力,同時將波動性降低到可管理的水平。

你估計一個模型

$$ Y_t = \beta X_t + \epsilon_t. $$ 這只是時間序列回歸。 關於您的問題 1):通常會查看股票指數的單個證券的貝塔值(請參閱 CAPM)。高貝塔值(高於 1)將表明股票的漲跌幅度超過市場。

其他估計 beta 的方法是對沖。如果你有安全感 $ X $ 和一個安全 $ Y $ 你想知道有多少圖片 $ X $ 你需要對沖 $ Y $ (即最小化 $ |\beta X-Y|^2 $ ) 那麼你就可以參加測試版了。

直接用回歸係數beta賺錢:我真的會說不。如果 beta 太小:完全忘記模型(期望什麼?)。

對於 2):估計 beta 是非常基本的。如果有利潤(即使是在高頻交易中),那麼其中一家大公司已經這樣做了。

引用自:https://quant.stackexchange.com/questions/18420