多重比較問題
我最近閱讀了一篇部落格文章,其中為一個常見的技術分析指標生成了一些統計數據。下面是連結。我的問題顯示在“響應”部分中名為 bill_080 的底部附近:
http://www.portfolioprobe.com/2011/04/16/a-bit-of-analysis-of-the-dow-golden-cross/
我的問題與連結中的問題相同:
".....In the paper, they were able to come up with a “Universe of Calendar Effects” of 9,452 rules (and a reduced set of 244 rules) to generate the statistics. In the “Golden Cross” scheme, can you think of a way to put a number to the “Universe of Golden Cross Effects”, and then look at the various p-value, t-stat, or whatever stats apply?....."
我處理類似問題已經有一段時間了,而且我確實有一種非常粗略的方法來處理這個問題。但是,我正在尋找其他人的任何建議。
編輯1 ==========================================
更具體地說,我在該連結中引用的“日曆效應”論文討論了優化超過離散範圍的多重比較問題。結果,他們能夠將“日曆效應的宇宙”計算為9452條規則。因此,他們隨後能夠更正任何 p-value/t-stat/etc 統計數據以反映這一可能性。
如果我嘗試將相同的技術應用於具有連續範圍或範圍的問題,例如在“金十字”案例中,第一個 n 天移動平均線(在連續範圍內優化,給出 200 天移動平均線)平均值)和第二個 n 天移動平均線(在連續範圍內優化,給出 50 天移動平均線),您如何輕鬆確定離散數字(“宇宙”)以糾正 p 值/ t-stat/etc 這個連續的問題?
我的生產/庫存問題與“金十字”問題基本相同。我有幾個變數(我可以選擇多少),直到我達到最佳組合,但是當我這樣做時,我如何想出一個離散數字來糾正我剛剛進行的多重比較?為方便起見,我們只說所需的校正是由以下給出的“Sidak 校正”:
http://en.wikipedia.org/wiki/Multiple_comparisons
alpha1 = 1 - ((1 - alpha2)^(1/n))
假設這是一個正常的一次性、沒有優化的情況 (n=1),我可能會使用 alpha2 = 0.05 (5%)。如果我優化 1 個變數、2 個變數、3 個變數等,這 5% 的值是多少?如果我為每個優化的變數添加 100 到 n,我將得到以下校正表:
Number of Optim Var n alpha1 0 1 0.05000 1 101 0.00051 2 201 0.00026 3 301 0.00017
因此,如果 100 是“正確的”加法器,那麼“金十字”問題必須匹配 alpha1=0.026% (0.00026) 才能與 5% 的 alpha2 一致。只是猜測,但我懷疑金十字計劃能否通過測試。
同樣,如果我使用 3 個變數優化我的庫存問題,我的目標 alpha1 是 0.017% (0.00017)。這是一個難以清除的障礙。加法器為 100 時,一個優化變數清除了障礙,但僅此而已。
那麼,每個變數添加 100 是不是太多了,還不夠?它應該是指數而不是加法器,以便上表有n = 1、101、10001、1000001?還有什麼方案?這就是我要證明的。有沒有人做過研究或看過一篇關於為 CONTINUOUS 變數校正 p-values/t-stats/etc 的論文?
David Aronson 花了 500 多頁的篇幅詳細介紹了在搜尋交易規則時多重比較問題的這一關鍵思想——所以看看他的書《基於證據的技術分析》。