回測

比較兩個分佈以預測收益

  • March 4, 2019

假設我們有兩個獨立的模型,都用於預測下一個時期的回報。兩個模型每天都進行估計,並且兩個模型都輸出一個機率分佈。我們如何評估一種模型是否比另一種更能更好地預測未來收益的分佈?

我的第一個直覺是簡單地計算每個日期的兩個模型給出的事後事件的機率,然後簡單地總結每個模型在不同時期的機率。總和最高的模型會更好。但是我覺得這種方式不是很乾淨,缺乏健壯性。關於如何改進我的方法的任何想法?

回答

如果您假設您的回報是獨立的(是的,您的模型可能會放鬆這個假設)那麼這兩個模型, $ Q_1 $ 和 $ Q_2 $ 為任何一天的收益分配機率分佈, $ i $ : $ q_1^i(r^i) $ 和 $ q_2^i(r^i) $ .

大概您對能夠更準確地預測市場狀態的模型感興趣,即您感興趣的是:

$$ \text{Probability of All Observed Returns} = P(r^1, r^2, .., r^n) $$

在獨立性假設下:

$$ P(r^1, r^2, .., r^n) = P(r^1)P(r^2)..P(r^n) $$

在兩種不同的模型下看起來像這樣:

$$ Q_1 = q_1^1(r^1) q_1^2(r^2) .. q_1(r^n) $$ $$ Q_2 = q_2^1(r^1) q_2^2(r^2) .. q_2(r^n) $$

如果您習慣於最大概似期望,這應該是熟悉的領域。顯然,您想選擇可能性最高的模型。通常,為了避免浮點舍入誤差,由於它是單調函式,因此會採用日誌的最大值,因此請考慮最大化,而不是:

$$ log(Q_1) = \sum_i log(q_1^i(r^i)) $$ $$ log(Q_2) = \sum_i log(q_2^i(r^i)) $$

在這種情況下,這也相當於之間的交叉熵 $ p $ 相對於任一模型,真實機率分佈,對於觀察到的狀態為 1,否則為 0 $ q_1 $ 或者 $ q_2 $ . 如果您不假設退貨的獨立性,那麼您的問題會稍微複雜一些,否則請發布更多詳細資訊。

只是一個想法

如果您的模型不相關(或相關性有限),您可以通過使用集成來提高準確性。考慮第三個模型:

$$ Q_3 = \alpha Q_1 + (1-\alpha) Q_2 \quad \text{for} \quad \alpha \in some[a,b] $$

現在你的機率分佈是,$$ \alpha q_1^i(r^i) + (1-\alpha)q_2^i(r^i) $$ 理想情況下,您想獲得,

$$ max_{\alpha} \quad log(Q_3) $$

這將至少與最好的模型一樣好 $ Q_1 $ 或者 $ Q_2 $ 為了 $ \alpha=1 $ 或者 $ \alpha=0 $ ,但當然你需要交叉驗證 $ \alpha $ 否則,您只會將此超參數過度擬合到觀察到的數據中。

您認為問題不僅僅是將機率相加的感覺是非常有道理的。首先給您一個壞消息:您所說的問題沒有解決方案。由於機率分佈有很多自由度,所以沒有通用的方法來比較它們。實際上,您的兩個模型可能以兩種不同的不可比較的方式好壞。例如,您的第一個模型可能會得到很好的平均值,但尾巴太輕,因此錯過了極端的市場走勢。而另一個在預測市場崩盤時很準確,但在崩盤之間的時間裡感到困惑。

這就是為什麼任何對質量評估的認真嘗試都必須關注模型的最終目的。例如,如果您想使用您的預測模型來告知交易策略以快速致富,那麼評估交易策略的性能而不是預測分佈的質量會更容易。當然,不可比性的醜陋問題(又名風險收益權衡)將再次引起人們的注意,但至少您清楚自己感興趣的目標函式。

對這類問題真正感興趣的不是金融市場,而是天氣預報員。從這裡開始進一步閱讀。可以在“大氣科學中的統計方法”第 8 章:預測驗證中找到有關該主題的教科書處理。

引用自:https://quant.stackexchange.com/questions/44411