面板數據
我應該建構僅包含必要變數的平衡數據還是包含許多潛在可用變數的不平衡數據?
當我從大型家庭調查(比如世界銀行的生活水平測量調查)建構面板數據時,我嘗試建構包含盡可能多的潛在可用變數的數據集。這會創建一個大的不平衡數據集,在我執行回歸之前我不知道還剩下多少平衡數據。
我個人沒有遇到任何問題,但我想知道其他人在必須使用我建構的數據集時會怎麼想。到目前為止,我還沒有與其他人合作過,但我想知道如果我需要與教授合作,我應該如何建構一個好的數據集來研究。我應該建構平衡數據集嗎?還是具有許多變數和許多缺失值的不平衡數據集?
這裡要問的關鍵問題是:**數據是否缺少隨機選擇的總體/樣本?**如果是這種情況(一種稱為完全隨機缺失的情況,MCAR,您可以簡單地丟棄具有缺失值的觀察結果並在平衡面板上執行您的模型。相反,如果不是這種情況(Missing Not At Random, MNAR) , 來自平衡面板的估計會有偏差. 還有一個中間情況, 隨機缺失 (MAR), 這取決於區分基於可觀察量的缺失(在這種情況下您可以進行簡單的插補), 或基於不可觀察的缺失,在這種情況下,您需要執行兩步 Heckman 估計。在此處閱讀有關缺失數據的更多資訊,以及在這本非常平易近人的書中。