機器學習與回歸和/或為什麼仍然使用後者?
我來自不同的領域(機器學習/人工智慧/數據科學),但我希望以最大的尊重提出一個哲學問題:為什麼定量金融分析師(分析師/交易員/等)更喜歡(或至少看起來)傳統統計方法(傳統 = 常客/回歸/正態相關方法/TS 分析)優於較新的 AI/機器學習方法?我讀過一百萬個模型,但似乎有偏見?背景:我最近加入了一家 1B AUM(我知道這不是很多)資產管理公司。我被要求為他們採用的部門輪換策略建立一個新模型(基本上預測哪個 SP 500 部門將在 6 個月內表現最好——選擇使用前向滾動的 6 個月回報),我的第一個傾向是結合 ARIMA(傳統) 具有隨機森林(特徵選擇)和分類(基於正態分佈標準差)梯度增強分類器,用於每個部門的 ETF。不要粗魯,但我擊敗了每個部門的 ValuLine 及時性。我使用上面提到的回報作為我的指標,並且最初幾乎把所有東西都扔到了預測變數的牆上(基本上只是梳理了 FRED),然後使用 randomForest 來選擇特徵。我最終將 EMA 和百分比變化結合起來創建了一個非常可靠的模型,就像我說的那樣,它擊敗了 ValuLine。不要粗魯,但我擊敗了每個部門的 ValuLine 及時性。我使用上面提到的回報作為我的指標,並且最初幾乎把所有東西都扔到了預測變數的牆上(基本上只是梳理了 FRED),然後使用 randomForest 來選擇特徵。我最終將 EMA 和百分比變化結合起來創建了一個非常可靠的模型,就像我說的那樣,它擊敗了 ValuLine。不要粗魯,但我擊敗了每個部門的 ValuLine 及時性。我使用上面提到的回報作為我的指標,並且最初幾乎把所有東西都扔到了預測變數的牆上(基本上只是梳理了 FRED),然後使用 randomForest 來選擇特徵。我最終將 EMA 和百分比變化結合起來創建了一個非常可靠的模型,就像我說的那樣,它擊敗了 ValuLine。
我讀過很多文獻,我還沒有看到有人這樣做。在為我指明正確的文學方向方面有什麼幫助嗎?或者對為什麼股市中沒有更多機器學習(忘記社交/新聞分析)的總體想法有任何答案?編輯:為了澄清,我對基於宏觀預測的長期預測(我認為席勒是正確的)非常感興趣。
謝謝
PS-我已經潛伏了一段時間。感謝所有令人敬畏的問題、答案和討論。
因為:
- 雜訊對信號的(極端)優勢
- 非重複模式的普遍性(我們知道其中許多不會重複)
- 交叉驗證的可悲樣本量
- 外因事件導致政權更迭。這些通常位於交叉驗證視窗中,這使得情況變得更糟。(全球金融危機、金融一體化、貿易法變化、央行利率調整、銀行中的一些白痴隱藏交易並損失 50 億美元等)。
- 眾所周知,非線性關係通常只是樣本數據集中的偽影
還有以下內容:
- 許多價格變化是由飛機失事或合併公告等新聞驅動的。您是否試圖通過讓您的模型學習價格數據的非線性關係來預測*新聞(!?)?*應該清楚的是,如果美國航空公司的價格因恐怖分子劫持而下跌,那麼讓隨機森林學習任何導致的模式都不會有用,因為它不會重複。
由於這些因素,許多(計量經濟學家和實踐者)將嘗試使用先驗知識來選擇特徵並對模型施加約束,以試圖提高泛化能力。計量經濟學家認為這是必要的,因為數據太薄、嘈雜且不穩定(即,上述原因)。
這並不是說 Lasso、NNG、Elastic Nets 或 Ridge 等“機器學習”方法不能應用。它們產生基本上線性的模型,您可以通過損失函式中的元參數或通過使用在使用指示函式互動時保留層次結構的變體對其施加任何先驗約束(Tibshirani 2013 …)。編輯:您仍然需要選擇算法中的哪些特徵(作為事先強加),但您可以使用這些特徵來實現比您原本擁有的稍微更多的稀疏性,並在您的條件期望中引入一些偏差(或者狀態機率,如果你重新進行多項分類 GLM)以改善採樣分佈的變異數。
然而,我對具有正確先驗約束的隨機森林持開放態度。
確實有數百篇論文使用機器學習來預測金融市場。只需Google一些愚蠢的東西,比如“模糊貝氏專家自適應學習者與 PSO 訓練 S&P 500”,你就會得到關於文件抽屜效應、出版偏差和不合標準的研究方法的課程(例如,選擇 50 種算法中的 3 種和 50 種指數中的 2 種,並希望它說服了人們)。
不過,以上是行業樂觀者的看法。在我與低頻基金交談過的那些人中,他們根本不了解機器學習,也無法應用它,因為他們缺乏知識和技能。如果他們真的對成為真正的量化分析師感興趣,誰知道他們對深度學習或其他東西會造成多大的損害。
如果你想在金融領域做真正的機器學習,並且真正做一些精英/技能/科學的事情,而不是幾乎完全隨機且到處都是胡說八道的人,那就去 HFT 公司(並不是說大多數人在低端胡說八道頻率基金,很多人都這樣做,這在高頻交易中是絕對不可能逃脫的)。也就是說,當我聽到低頻量化基金的研究方法時,我一直感到不知所措。