為什麼經濟學家不做回歸診斷?
網路上的教程中有很多關於回歸診斷的討論,但是在經濟學研究論文中,實際上沒有人報告殘差圖、共線性檢查等。這有什麼原因嗎?
從標題中的問題開始:
為什麼經濟學家不做回歸診斷?
人們進行回歸診斷。我不知道有哪個受人尊敬的研究人員不會執行回歸診斷,而且幾乎所有論文都會暗示執行了回歸診斷。例如,在帶有回歸結果的表中,您會發現有關 White 或 HAC 錯誤的註釋被用於糾正異變異數或自相關或兩者,或引用對橫截面依賴性等的糾正。
只有非常不道德的學者才會聲稱這些問題在沒有經過一些測試的情況下存在/不存在。所以科學家(或至少是優秀的科學家)總是進行回歸診斷。
要解決正文中的問題:
在經濟學研究論文中,實際上沒有人報告殘差圖、共線性檢查等。這有什麼原因嗎?
是的,幾乎所有科學期刊的頁數限制都非常嚴格,在 30-60 頁之間,大多數期刊的頁數限制在 40 頁左右。此外,較短的文章通常更受青睞並吸引更廣泛的讀者,因為人們通常更喜歡閱讀較短的論文。另外,請注意頁面限制通常包括參考列表,這些參考列表通常會佔用另外 1-5 頁以及所有其他內容。只有線上附錄被排除在頁數限制之外。
現在,如果您想正確處理所有圖(甚至更多),回歸診斷的文件可以輕鬆佔用 10 頁。此外,回歸診斷本身並沒有太大的意義。您執行它是為了了解如何正確指定您的模型或使用什麼辨識策略。一旦你發現你只是使用了合適的模型,那麼回歸診斷本身對讀者來說就沒有什麼價值了,因為它攜帶的關於研究結果的資訊非常少。正如答案的第一部分中提到的,人們仍然會在他們的論文中提到存在自相關或異變異數性以及他們如何對其進行校正(等等其他問題),因此在關於展示所有輔助診斷的論文。
因此,這樣做的原因很簡單,因為紙上沒有足夠的空間,而且你總是必須節省給定的空間。如果你真的想這樣做,它通常會佔用 1/3 的寶貴空間,你會驚訝於研究人員實際上將他們的研究納入頁數限制是多麼普遍的問題。通常,您甚至會被迫將主要推導歸類到線上附錄中,以適應限制。最後,任何對支持或解釋主要結果並不重要的東西都不會被淘汰。
正如評論中提到的,這有時會導致可重複性問題,但現在的解決方案是期刊要求學者發布他們用於得出結果的程式碼(您還可以在其中找到回歸診斷),而不是實際在紙,原因如上。
這是一個非常深思熟慮的問題。
我認為這與(i)目的和(ii)樣本量有關。計量經濟學經常關注因果關係(而不是預測或預測)。對於因果關係,正確的模型規範、一致性和有效的標準誤差很重要。諸如多重共線性(高相關性)、非正態性等是無關緊要的(尤其是對於大型數據集)。
例如,多重共線性通常會導致較大的標準誤差,但重要的是,沒有偏差。如果由於多重共線性而放棄了一些變數,這僅意味著您無法控制最初打算控制的變數;也就是說,您的估算器有偏差。只要樣本量很大,由於中心極限定理,非正態性檢查(例如,正態 QQ 圖)並不重要。異常值與其他數據點一樣;誰授權你隨意省略它們?通過刪除“異常值”,您只是在以一種奇特的方式限制人口;您只會受到批評,即您的估算器有偏見。維夫?如果由於 VIF 高而丟棄變數,則意味著您的估計量不一致(有偏差)。
根據數據選擇模型是危險的。如果你想說一些關於因果效應的事情,除非你嘗試使用最前沿的計量經濟學技術,否則你很難為套索選擇的模型辯護。推論是針對給定模型(由您的思想創建)而不是統計建議的模型(即電腦)進行的。
這些天來,我們甚至不太關心測試異變異數性,因為樣本量很大,而且我們總是可以進行 HC 推斷。自相關不是問題,因為它只會使標準錯誤複雜化,您可以通過 HAC 修復。
如果您對預測/預測感興趣,那麼這些東西可能更有用。但即便如此,上述診斷方法也太老套了。人們已經轉向套索和其他機器學習技術。我認為上述診斷方法可能會在(非計量經濟學)教科書和教程中存活下來,但最終會在計量經濟學實踐中消失。但如果你有小樣本,情況就不同了。還碰巧發現舊事物在完全不同的環境中很有用。例如,IF 對於計算標準誤差非常有用。