經濟學中實證結果的複制
我正在閱讀有關心理學和醫學的可複制性危機。例如,許多心理學實驗是在本科生身上進行的,樣本量太小,聲稱結果具有統計學意義。獨立研究人員也沒有嘗試用更大的樣本量重做這些實驗。許多這樣的結果在沒有經過適當審查的情況下被心理學界普遍接受為真實的。直到最近十年左右,心理學家才認真開始嘗試複製許多具有更大樣本量的此類研究,僅在大約三分之一的研究中在同一方向上獲得了顯著結果,因此出現了危機。
在 AER 上發表的實驗經濟學結果的類似複製嘗試看到了三分之二的複制率,是心理學的兩倍。
但我的觀點是,經濟學中的大多數實證研究都不是實驗性的,而是準實驗性的。這些數據通常可以從政府記錄等中公開獲得。在此類研究中,它們沒有必要“用更大的樣本量重新進行實驗”。在此類研究中複製意味著什麼:是否意味著用不同的數據回答類似的問題並獲得相同的結果?即使技術不同(例如,如果第一個是對瑞典數據的不連續回歸以查看班級規模對分數的影響,那麼第二個研究是否可以是對巴西數據的 Diff-in-diff 以回答相同的問題)?
而且因為通常此類準實驗研究(即使沒有複製)中的樣本量通常很大,我們可以說複製在經濟學中通常不是問題嗎?特別是在數據公開的情況下。還是我對準實驗研究中複製的理解是錯誤的?
在這樣的研究中,他們沒有“用更大的樣本量重做實驗”的意義。
這是不正確的。
- 更多的觀察總是更好。如果您有一些非實驗性或準實驗性研究(比如說債務與增長之間的關係),並且由於數據限制,您只能包含 30 個西方國家的 10 年數據,那麼它實際上非常重要你檢查你發現的關係是否會再次持有更多國家的數據。
- 科學家可能會採取一些不良做法來發表文章,例如 p-hacking。因此,即使您沒有更多數據,也值得重做其他人的工作以查看所有步驟是否有意義或是否有問題。
例如,作者可以聲稱由於與另一個控制項的高度共線性而排除了一個控制項,不幸的是,輔助測試通常不會在論文中報告,因此唯一的檢查方法是實際複製該研究,您可能會發現不存在共線性並且包含該控制項使主要結果變得微不足道等。在方法論方面人們可以做很多陰暗的事情,以至於被迫共享您的程式碼並讓其他人從字面上追溯您的步驟是您可以確保那裡的唯一方法壁櫥裡沒有骷髏。 3. 從廣義上講,複製不僅僅是簡單地追溯其他人所做的步驟。即使在物理學中,當你複製實驗時,如果你認為你複製的論文有問題,你也可能不會 100% 完全按照同樣的方式去做。例如,如果您認為結果可能由於空氣的存在而出現偏差,而另一個實驗僅設法將 94% 的空氣排出測試室,但您擁有更好的設備並且可以排出 99% 的空氣,那麼您不會故意重新創造 94% 的條件,但您會嘗試盡可能多地去除空氣。
以類似的方式,複製可以比僅僅追溯步驟更廣泛。作者是否使用了分群錯誤但只有 10 個分群?那麼很可能他們的聚集錯誤被錯誤估計了,讓我們用引導錯誤進行複制,看看推理是否改變。作者是否使用了 Diff-in-diff,但您發現他們沒有檢查共同趨勢假設,您發現違反了共同趨勢?好吧,讓我們重做他們所做的,但使用合成控製而不是 DiD。
正如您所看到的,即使在準實驗/觀察研究中,也有很多重複的理由。