回歸
當我在回歸中遺漏空單元格時會發生什麼?
我正在使用 Stata 14.1 進行回歸,但出現
matsize too small
錯誤。它提供了更多輸出來告訴我這個問題的可能原因,我認為這就是適用於我的原因If you are using factor variables and included an interaction that has lots of missing cells, either increase matsize or set emptycells drop to reduce the required matrix size; see help set emptycells.
是的,我正在使用因子變數(美國和華盛頓特區的每個州一個),是的,有很多空單元格。
我試圖找出哪個選項更好,刪除空單元格或增加矩陣大小,以便它可以包含所有因子變數。
它有關於如何做這兩件事的幫助文章:刪除空單元格或增加 matsize。我想弄清楚的不是“如何”而是“為什麼”。當我丟棄空單元格時,數學上會發生什麼?(我可能不會理解數學,所以如果有一個愚蠢的答案只是關於留下空單元格是好還是壞,那可能會更好。)
當您有空單元格時(並且通過空單元格,我假設您指的是觀察特定變數的缺失值),然後 STATA 預設刪除整行。所以從某種意義上說,即使你在一個變數上有一個缺失值並且你有 100 個變數,你也會失去整行(整個觀察)。這是預設設置。如果您想避免這種情況,或許可以考慮估算缺失的數據點。
要回答“為什麼”,如果您有很多空單元格,那麼一個原因可能是當 STATA 刪除相應的行時,您最終得到的觀測值(行)少於特徵(x)。直覺上,你可能會這樣想:每個觀察都能夠解釋一個“事實”。模型中的每個係數都是關於 x 如何影響 y 的事實。如果您的觀察值少於 x,則您無法解釋所有事實。
根據您正在做的事情,您可以訴諸模型選擇技術來減少特徵的數量(如果您的模型沒有直接遵循理論並且您有很多特徵)。正則化技術(例如標準化)也是可能的,但會改變您對係數的解釋,並且您可能會失去結果的可解釋性。否則,您需要按照@ChinG 的回答中的說明估算缺失單元格的值。
不確定您將如何計劃“增加矩陣大小”——除非這需要收集更多觀察結果,否則這不是正確的做法。