軟問題

探討隨機矩陣理論及其對PCA的影響

  • February 13, 2021

我為大學寫了一篇關於隨機矩陣的論文,在我的研究過程中,我有了一個有趣的想法,讓我解釋一下:維格納半圓定律自 1955 年最初證明以來取得了很大進步,最近我相信這是陶對顯示普遍性的 Wigner-Gaudin-Mehta-Dyson 猜想。現在是飛躍,大部分大數據都依賴於主成分分析,或者將數據分解為各自的特徵值和特徵向量。然後我們將結果與相似的數據集進行比較,看看是否存在相關性。然而,如果我們將股票價格視為布朗運動,即特徵值和特徵向量趨於循環規律的迭代隨機過程,那麼這不會在我們比較特徵向量與其他迭代隨機過程時產生固有的偏差。

例如,我們假設農業中的一組商品股票和礦業中的另一組商品股票不相關,但在批處理和 PCA 之後,它們具有相似的規范特徵值。這難道不是部分因為它們至少對於足夠大的批次和重複抽樣具有相同的分配規律嗎?如果是這樣,是否已經有方法或假設檢驗可以通過這個過濾?

這只是一個想法,當我被困在家裡時,我真的沒有很多人來討論這個想法。由於我不在該領域,所以我可能對 PCA 的工作方式或金融產品的相關性有誤。

編輯:我覺得需要進一步的上下文,因為這不是大多數人熟悉的結果。

從 RMT 來看,特徵值對於具有 iid 正態分佈條目的對稱矩陣具有半圓分佈。最近證明對 iid 的限制無關緊要,因此我們可以繼續進行。如果我們採用從 A 開始的所有股票的共變異數矩陣,比較一段時間內的平均每日收益,我們可以假設對數正態分佈形成一個,比如說 10000 x 10000 對稱矩陣。因此我們得到一系列隨機共變異數矩陣 $ \Gamma_1, \Gamma_2, …, \Gamma_n $ . 我們假設每個條目都是獨立同分佈的,因為股票之間“沒有”任何關係(儘管非獨立同分佈條目的結果較弱)。現在,這一系列矩陣形成了一個共變異數矩陣鏈,趨向於股票整個歷史的潛在共變異數矩陣(如果我們正確採樣的話)。我們從 RMT 中得知,一旦我們將這些矩陣分解為它們的特徵值,特徵值就會趨向於半圓分佈。由於此分佈是連續的,因此結果存在差異,即共變異數矩陣的特徵值分解存在一些潛在的變異數。因此,當我們使用共變異數矩陣時,不應該有某種假設檢驗能夠過濾掉這個潛在的分佈,類似於比較正態分佈,我們需要在比較兩個平均值時考慮變異數。這將取決於隨機變數的獨立同分佈、矩陣的大小、採樣的數量以及隨機變數本身的均值/變異數。這個假設檢驗的奇怪之處在於我們期望 $ n $ 誤差界限變得更大,由大小和收斂到半圓分佈之間的漸近關係擷取。

TLDR:是否有針對 PCA 或任何特徵值方法的某種假設檢驗來過濾掉隨機共變異數矩陣的潛在趨勢以解釋變異數?類似於比較兩個正態分佈的平均值時,您需要執行假設檢驗來解釋變異數。

此外,我寫得越多,我就越覺得這與數據科學相關,而不是與量化金融相關,因為我意識到我的例子似乎不太適合。

嗨:我不完全理解你的問題,但我可以評論它的一個方面。(所以這不是答案)。A)股票回報是幾何布朗運動過程和 B)PCA 捕捉到來自兩個不同行業的股票的某種相似性的想法幾乎是兩個不同的東西。

A)來自有效市場理論,其中假設 $ ln(P_t) = ln(P_{t-1} + \epsilon_t $ . (隨機遊走,在連續時間內是布朗運動)。

B) 更多來自經濟投資理論,其中假設股票收益由於其基本特徵而具有各種組成部分,其中一個組成部分是“市場”因素。因子模型用於將股票收益分解為因子和因子載荷。“市場”驅動股票部分回報的事實通常被稱為 PCA 中的“市場”因素。

所以,我的觀點是 A) 和 B) 是兩個完全不同的概念,所以我不會把它們混為一談。A)將在任何體面的衍生品文本中進行討論,例如赫爾的。(其他書籍也可以更多地了解擴散過程的數學等)。B) 將在諸如 Zivot 或 (Rudd and Clasing) 之類的金融計量經濟學文本中進行討論。此外,還有一本像威廉·夏普(William Sharpe)這樣的投資書。

這就是我所能說的,但希望它會有所幫助,因為根據你的問題,聽起來你正在結合這兩個概念,這可能會導致一些混亂。

我也必須承認對 Wigner-Kermit-Ringo 過程的無知 :-) 但我確實了解 PCA,以及迭代還原市場過程,,,

我懷疑(但不能希望證明)你在這裡提出了虛假的反對意見?是的,穀物和金屬是相關的。因此,相關股票(例如 Deere 和 Rio Tinto)在 PCA 分析下確實會出現關聯。事實上,他們可能是,看著這兩個和石油公司對抗說方、微軟和特斯拉!

如果您接受這些組之間的統計顯著差異,那麼對穀物和工業金屬之間的差異感到可愛確實很可愛。您的 PCA 可能只是在暗示“舊經濟”(包括所有商品)和“新經濟”技術之間的區別。

所以我不清楚問題的本質…… Ags 的 beta 可能確實與 Copper 和 Iron Ore 的 beta 非常不同。但這是 PC3、4 或 5 的區別,一旦它有將資源與技術(以及財務、消費者等)分開。

是的,兩者都是本徵劇。因此,他們應該找到相同的解決方案,也許通過不同的路徑。但回報的基本分解是相同的過程。我可以看到的關鍵“差異”是 PCA 必須在開始擔心不同類型的 Comm 之間的差異之前將非 Comm 分離出來。

我很可能錯過了這裡的重點。對不起,如果是這樣!

引用自:https://quant.stackexchange.com/questions/61095