多重共線性的可容忍水平是多少?以及可能的補救措施?
我的數據存在多重共線性問題。經過估計,我發現我的數據具有高水平的VIF,但是我很困惑我可以忽略多重共線性問題的 VIF 水平。
當我在網上搜尋時,有人說它應該小於 2.5,其他人說它應該小於 10 或 14。
我的 VIF 結果是這樣的:
- 變異係數:18.74
- 變數B:11.14
- 變數C:10.03
- varD:5.99
- varE:2.86
我應該採取什麼步驟來解決這個問題?我有固定的樣本量,我無法記錄轉換我的模型,因為我的變數之一的範圍從負數到正數。
解決這個問題有兩種可能的方法。首先是執行主成分分析 (PCA) 以減少使用中的變數。第二個是將其建構為貝氏問題。
PCA 的困難是雙重的。首先,結果很難解釋和解釋。其次,如果某些變數的關聯存在理論上的原因,並且您在 PCA 中消除了該關聯,那麼無論您的模型效果如何,都是錯誤的。
如果您至少從樣本本身以外的資訊(例如其他研究)中獲得了關於關係的微弱資訊,則貝氏替代方案是一個很好的替代方案。多重共線性對貝氏方法來說不是問題。唯一會形成的問題是完美的多重共線性,在這種情況下你真的只有一個變數,你需要選擇一個來使用。
這是因為幾個因素。首先,貝氏方法本質上是事後優化的方法。所有具有適當先驗的貝氏估計量都是可接受的,頻率估計量只有在它們與每個樣本的貝氏估計量匹配或在極限處匹配貝氏估計量的情況下才可接受。這種最優性部分來自這樣一個事實,即概似函式對於參數總是最低限度的。沒有辦法從數據集中獲得更多資訊,也沒有風險更低的方法來計算估計值。貝氏估計量不能被隨機支配。
他們也忽略了冗餘資訊。這不是來自重複觀察,而是如果資訊已經被編碼(不是雜訊)到計算中,那麼相同的資訊不會被編碼。如果您有高度共變的變數,則樣本中幾乎沒有獨立資訊。大多數資訊在變數之間共享。在貝氏計算中,共享資訊會被添加一次。頻率論方法可能存在多重共線性問題,因為這對它們來說不一定是正確的。這就是假設沒有線性相關性的原因。
貝氏方法的問題在於,您必須將所有關於關係的外部知識從文獻中出現的任何內容編碼到先驗分佈中。先驗分佈對您擁有的關於樣本本身之外存在的關係的所有資訊進行編碼。然後將先驗乘以看到樣本的可能性,並在參數空間上取平均值。
貝氏方法的好處在於,它們的準確度很少低於頻率論方法,而且通常更準確,有時甚至高出幾個數量級。RA Fisher 在 1930 年代提出了一個範例問題,他對最小變異數無偏估計量的批評是它可能是準確的,即誤差是對稱的,但在正確性是我們現在所說的精度的情況下是不正確的。與貝氏方法相比,OLS 可能與真實值相差甚遠。然而,對於大樣本量,它們傾向於在參數估計和準確性方面收斂。
如果您從未進行過貝氏計算,您將希望首先獲得專業幫助。主成分分析也是如此。
在貝氏方法的情況下,數據不被視為隨機變數。沒有隨機樣本這樣的東西。數據是固定的。你看到了。沒有什麼不確定的。這些參數被認為是隨機的,因為它們存在不確定性。
貝氏可以說“它可能正在下雨”,這是有道理的。對於頻率論者來說,這是荒謬的。要麼下雨,要麼不下雨。它是 100% 正確或 100% 錯誤,因為這是事實。
對於常客來說,在以下情況下拒絕 null 是有意義的 $ \bar{x}>k $ 如果空值是真實的,則超出範圍將是不尋常的,因為它不太可能是極端或更極端的。貝氏可能會拒絕這種拒絕。貝氏可能會問,“有沒有人實際觀察到的結果大於 $ \bar{x} $ ? 你怎麼知道甚至可能存在更極端的結果?您如何對從未見過的事物做出推理判斷?
主成分分析的奇怪之處在於它暗示了幾何。你將旋轉現實,直到現實分裂成正交分量。如果您認為數據中存在潛在因素,您也可以使用因子分析。無論哪種情況,您都不會談論您所知道的世界。相反,PCA 會嘗試將隱藏的部分篩選成沒有社會意義的新組件。它變成了數學。