在基於邏輯回歸的策略中,p 值有多重要?
我從來沒有真正考慮過這一點,但是在訓練我今天測試的一些策略時,我注意到我的模型返回了可接受的年化回報/回撤/等,但模型參數並不重要(根據 p 值)。
對我來說,這告訴我這些模型參數並不能充分解釋響應變數的值。但如果是這種情況,我預計會看到非常糟糕的回測/前進/等結果。
在金融背景下,我應該在什麼背景下查看邏輯回歸參數的 p 值?
您聲明您正在測試模型而不是模型。標準的、內置的顯著性統計檢驗假定您只測試一個模型。唯一的一般例外是使用一些解決方案,例如逐步回歸,該解決方案旨在允許多重比較。在程序上,您應該在模型中執行 AIC 或 BIC 的一些變體。選擇此模型後,您將執行主 F 測試。如果 F 檢驗顯著,那麼您將對每個參數進行 t 檢驗。在逐步回歸中,這一切都發生在一個巨大的輸出中。在您對此感到滿意之後,您將執行樣本外驗證。
如果你不這樣做,那麼你的 p 值就沒有任何意義。AIC 和 BIC 以及其他一些實際上是機率陳述。它們與在某些非常程式化的假設下模型是真實模型的貝氏後驗機率成正比。您可能會聽到這樣的論點,即這對於 AIC 是不正確的,並且在某些公理結構下是正確的,但在貝氏而不是資訊論公理下,它只是貝氏後驗的非正規化近似。
這很重要的原因是資訊標準是多重比較的控制。如果您不使用它,那麼您將需要一個巨大的模型模型,並進行多次比較校正。
您如何處理所有其他模型?除非資訊標準非常接近,否則您將丟棄它們。考慮到這些是對數比較,Close 非常小。Close 非常非常接近,遠低於一個單位。
一旦你選擇了一個模型,然後你看看 F 檢驗。如果它不重要,那麼您也丟棄該模型。然後,您將尋找不同的變數來建構模型。
如果你的 F 檢驗很重要,那麼你看看你的 t 檢驗。在您的情況下,沒有重要的變數。有幾種可能的解釋。
第一個是沒有什麼是重要的。金融中存在大量的機會相關性,因為金融數據的建構方式不可能獨立。您可以擁有真實的相關性,但從根本沒有預測價值的意義上說,它們也是無用的。
第二種可能性是多重共線性。這是一個嚴重的問題,因為您的資訊標準認為這是最好的模型。如果是多重共線性,那麼您需要找出哪些變數靠得很近並儘可能多地刪除。主成分分析可以在這裡提供幫助。一旦你減少了你的變數集,用那個減少的集重新開始這個過程。
如果您有一些重要的變數和一些不重要的變數,那麼如果在資訊標準下考慮了子集模型,則您不能刪除不重要的變數。例如,考慮 $ y=\alpha+\beta_1x_1+\beta_2x_2 $ 該模型在資訊標準下被接受,並且模型 $ x_1 $ 或者 $ x_2 $ 被省略被拒絕。資訊標準意味著數據對於一個好的模型是必要的,但是你沒有足夠的能力來偽造空值。情況可能是這樣 $ \beta_2 $ 不為零,但非常接近於零。
完成所有這些後,您可以開始進行樣本外驗證。如果您不喜歡驗證結果,請使用新類型的數據重新開始。
其中的關鍵要素是資訊標準。它們是非頻率估計量,因此不受零假設問題的約束。貝氏機率檢驗不拒絕空值。貝氏思想中沒有特殊的假設。貝氏假設測試它是否為真,而不測試空值是否為假。因此,您應該有盡可能多的假設,因為您有可用的選項。
為了讓您對差異有所了解,我附上了麻省理工學院 OpenCourseWare 的連結。 推理類型之間的差異。 Wagenmakers 還發表了一篇不錯的論文,將 t 檢驗與現有文獻中已發表的 855 個 t 檢驗的貝氏後驗密度進行了比較。它在Wagenmakers 網站上。 您應該真正閱讀它以更好地了解 t 檢驗是什麼,不是什麼。