計量經濟學:省略重要變數
我目前正在做一個項目來建構肉類和魚類的需求函式。我的數據表明水果和蔬菜的價格具有單獨的統計顯著性。然而,在省略了這個變數(以及其他 3 個不顯著變數)之後,F 檢驗結果突出了拒絕 Null 的失敗(這四個變數共同不顯著)。
因此,我是否應該忽略 Fruit & Veg 變數,儘管它具有獨立意義,並且對於包含在我的需求函式中也具有直覺意義。
重要的是要認識到從模型中刪除不同變數存在路徑依賴性。這是因為變數之間可以高度相關(正或負),因此通過刪除一個不重要的變數,其他變數可以變得統計顯著或不顯著。
有很多不同的方法來處理這個問題。正如前面的評論者提到的,您可以使用某種模型選擇程序來嘗試探索您包含的變數的空間。有許多不同的方法可以做到這一點(AIC、BIC、SIC、Lasso、Gets…),但最終對所選模型的解釋假定您的原始模型包含真實的數據生成過程。如果不是這種情況,那麼從您的原始模型中進行選擇可能會給您提供不一致的參數估計。
或者,您可以堅持純粹的理論方法,並提前指定您認為重要的變數(即您認為 DGP 是什麼),然後僅將這些變數包含在您的模型中。這樣您就不會添加或刪除任何變數,而只需根據您對真實模型的理論來解釋估計的模型。解釋還依賴於您提出的模型與基礎 DGP 一致的假設。
你不應該做以上任何事情。這是一個無效的決策過程。
在所有可能的世界中最好的情況下,創建一系列 do 循環並遍歷所有可能的變數組合集。計算 AIC 或 BIC。如果您對其中任何一個一無所知,只需選擇一個,因為它們通常會給出相同的結果。
AIC 或 BIC 最低的模型可能是自然界中最接近真實模型的模型。統計意義根本不重要。如果最佳模型也不顯著,則它不顯著。這可能只是意味著其他模型具有虛假的意義。同樣,如果所選模型在 F 檢驗下顯著,但變數不顯著,則您無法更改它們。
如果您不知道如何編寫 do 循環或 for-next 循環,請查找具有逐步回歸的包。它不會涵蓋所有模型,但會涵蓋許多模型。使用 AIC 或 BIC 相同的標準。
因為您斷言 null 為真,所以您不能有多個 null。如果您添加或減去變數,這沒有任何意義,因為您每次都在更改 null 而您不能這樣做。AIC 或 BIC 是估計真實模型的非頻率主義方法,因此在選擇模型之前,使用其中任何一種的解決方案都會繞過重要性問題。
編輯
我想我會提供一個編輯來涵蓋評論中的陳述。
首先,我同意評論。我認為我應該更好地理解上述陳述背後的邏輯。
各種資訊標準,AIC、BIC、DIC 等,可以基於資訊論或貝氏理論。
從資訊論的角度來看,如果您有關於應該從理論或經驗中包含或排除哪些模型的外部資訊,那麼需要合併這些資訊。由於沒有直接的方法可以將它們合併在一起,因此您應該判斷要查看哪些模型。
從貝氏的角度來看,各種資訊標準是貝氏後驗在一些限制性假設下的程式化點近似。在許多方面,它們都不是好的代理,因為後驗密度越小,它就越不可能為真,而在標準中則相反。最好將它們視為排名,並且它們將提供相同的排名順序。
現在存在兩個貝氏問題。首先是你可以從考克斯公理中建構貝氏理論。考克斯的公理是圍繞亞里士多德邏輯建立的。您將使用貝氏方法來評估邏輯語句。如果某些陳述不需要評估或可以被邏輯排除,那麼它們應該被排除在考慮之外。
第二個來自先驗密度的性質。如果您事先知道某些情況不可能是真的,那麼您應該給它們零先驗權重。這將完全排除他們的考慮。
儘管如此,仍應考慮組合方法,因為它映射到貝氏參數,並且資訊標準是非頻率論結構,因此在做出此類決定時不應使用頻率論標準。
貝氏假設是組合的。如果您正在測試模型
$$ y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3+\varepsilon $$並且您沒有邏輯理由排除任何情況,那麼您將不得不檢驗八個假設,一次刪除一個、兩個或三個變數。這實際上等同於頻率論假設 $ \beta_i=0 $ 無法在貝氏方法中進行測試,因為它是一個尖銳的零假設並且測度為零。刪除一個變數並假設它的係數為零是一回事。 由於貝氏方法缺乏原假設,這既是優點也是缺點,沒有一個假設得到特殊處理或特殊權重,缺乏實質性的外部資訊。作為過程的一部分,您可以測試每個可能模型的後驗機率。
現在,這是一個合理的反對意見。資訊標準是實際後驗的程式化近似值。在某些情況下,它們是完美的近似值,但在其他情況下它們可能是很差的近似值。在完美近似的情況下,您應該使用適合您的問題的資訊標準,您擔心的不是標準,而是數據的代表性。在近似差的情況下,如果實際計算了後驗,則實際上可以反轉緊密的差異。當您將組合相乘時,發生單個配對錯誤的可能性就越大。儘管如此,由於您沒有進行模型平均,但模型選擇可能不是最高的兩對。
使用資訊標準之類的工具確實突出了基於數據的測量中的問題,而不是基於真實零假設的方法,這些組合顯示了您可能擁有的*獨立數據有多麼少。*如果您不是模型搜尋,而是測試一個真實模型,那麼您將失去幾個自由度,除非您有共線性問題,否則如果您的樣本大小合理,那麼您就可以了。在我上面的範例中,這很像將您的樣本除以 8。它不是像自由度那樣是一個減法過程,它更像是一個除法過程。再加上內部相關性,您的集合中可能沒有太多獨立資訊。
儘管如此,在我看來,您似乎並沒有對關係應該如何有一個心智模型,所以我仍然推薦組合或逐步解決方案。