共變異數

是否可以進行更穩健的共變異數估計?

  • November 22, 2019

我正在研究平均變異數優化問題,但我選擇的不是金融證券,而是 N 個運動員的“投資組合”。這是一個通用統計數據的 1 週期優化問題,我將performance在這裡呼叫它。我假設athlete_performance是一個長度為 N 的隨機向量分佈為多元正態:

運動員表現 $ \sim MVN(\mu, \Sigma) $

在哪裡 $ \mu $ 是均值(或預期性能)的 1xN 向量

和在哪裡 $ \Sigma $ 是一個 NxN 矩陣,對角線上有變異數 ( $ \Sigma[i,i] $ = $ Var(i) $ ) 和非對角線的共變異數 ( $ \Sigma[i,j] $ = $ Cov(i,j) $ ).

我的問題是關於可用於估計矩陣的共變異數(非對角線)部分的選項。

我主要關心的是我的共變異數矩陣的**預測性。**如果我使用的證券都是一起上市 10 年的,那麼“樣本共變異數”可能可以預測未來的共變異數,但在體育運動中,它並不是那麼簡單。

想像一下美式足球中的四分衛和外接手。他們的表現之間的關聯程度取決於他們所面對的傳球防守的質量。或者在 F1 比賽中,如果車手 A 和 B 在較直的賽道上都表現出色,但只有車手 B 在狹窄的彎道上表現出色,那麼根據賽道是直的還是曲折的賽道,他們的表現會有很大的不同。

我知道“樣本共變異數”,在我的情況下,它會查看兩名運動員之間的歷史重疊。我也知道“收縮共變異數”。我想知道是否有更強大的計算共變異數的方法可以更好地預測未來的共變異數,可能使用某種回歸或 MCMC。

感謝您閱讀問題和您的時間!

分位數回歸被認為是一個穩健的過程,但缺乏完全可微的質量。還有正則化回歸模型,如嶺回歸、套索回歸和彈性網路回歸,它們隱含地考慮了 OLS 等數據的共變異數,但還通過引入偏差來降低估計的波動性。這些可以解釋時間序列之間的相關性,就像您想要的那樣,並且已被證明優於 OLS。嶺回歸專門影響共變異數矩陣的對角線來做到這一點。

這種在機器學習任務中典型的偏差-變異數權衡具有與共變異數收縮類似的效果,最好的例子是Ledoit-Wolf 共變異數估計器,它估計共變異數矩陣的非對角線元素的方式與樣本共變異數估計器不同,例如你想要什麼。否則,您可以研究特徵值技術。

@develarist 引用的 Ledoit-Wolf 估計可能非常好,但正如您所說,您已經知道“收縮”。對於任何給定的相關性,它將觀察到的相關性群體作為有效的貝氏先驗,因此它本質上假設所有對在某種意義上都是相似的。例如,如果已知高度相關變數的塊集會毒化樣本集,它就不會很好地工作。

如果你想要成對的東西,說變數 $ x $ 和 $ y $ ,因此對人口不敏感,請考慮 Gnanadesikan 和 Kettenring 的想法。假設您有一個位置(平均)估計器 $ \mu(\cdot) $ 和一個尺度(可變性)估計器 $ \sigma(\cdot) $ .

如果 $ \sigma $ 是標準偏差,那麼您可以將變異數寫為

$$ \mathrm{Cov}(x,y) = \frac14\left( \sigma^2\left(\frac{x}{\sigma(x)}+\frac{y}{\sigma(y)}\right)- \sigma^2\left(\frac{x}{\sigma(x)}-\frac{y}{\sigma(y)}\right) \right) $$

(你實際上並不需要 $ \mu() $ .)

因此,如果您替換一些穩健的尺度估計器 $ s(\cdot) $ 為了 $ \sigma(\cdot) $ ,你最終得到穩健的成對共變異數估計。

如果您需要這些的半正定矩陣,則必須通過正交投影或 Higham 算法應用進一步的後處理。

有關詳細資訊,請參閱rrcov R 包文件或此 stats.se 答案:robust-covariance-and-ogk-outlier-detection

引用自:https://quant.stackexchange.com/questions/49692