為什麼回歸量是平方而不是 ^1.5 或 ^2.2 或 ^2.5?
當經濟學或金融研究人員想要應用線性回歸模型但懷疑其中一個回歸變數與因變數之間存在非線性關係時,通常還包括該回歸變數的平方,然後(也許,但通常不) 之後執行 Ramsey RESET 測試。
我的問題是;為什麼要平方呢?為什麼不取指數(稱之為 $ x $ ) 成為 $ x \in [1.5,2.5] $ , 例如?獲得正確的線條“形狀”對於做出假設很重要 $ E[\epsilon_i | \mathbf{X}]=0 $ 抓住; 在某些情況下 $ x=2 $ 做得很好,但在其他情況下,比如 $ x=1.8 $ 可能我更懂事。
當然,在這裡,我說的是假設嚴格為正值的變數,因此我們不會得到復雜的結果。一個例子是 $ Age $ 在教育領域 $ \to $ 收入研究。
我基本上同意@John,讓我擴展一下:
我們想建模 $ y $ 使用簡單的線性模型,最基本的設置是
$$ y = c + \mathbf{X}\beta $$ 和 $ y $ 這 $ N $ 觀察, $ c $ 一個常數, $ \mathbf{X} $ 這 $ N \times M $ 回歸矩陣和 $ \beta $ 一種 $ M $ 係數的維向量。這個模型有 $ M $ 參數,元素 $ \beta $ . 上述模型是估計的,Ramsey RESET 測試發現模型指定錯誤,研究人員希望修復此問題。正如您提出的,上述模型很容易擴展
$$ y = c + \mathbf{X}\beta + \mathbf{X}’\gamma $$ 在哪裡 $ \mathbf{X}’{i, j} = \mathbf{X}{i, j}^{e_i} $ , $ \mathbf{e} $ 是一個 $ M $ 維向量和 $ \gamma $ 一種 $ M $ 係數的維向量。這個模型有 $ 3M $ 參數,元素 $ \beta $ , $ \gamma $ 和 $ e $ 由於非線性,更難以估計。 這可以通過修復所有問題輕鬆解決 $ e_i $ 先驗。這產生了另一個問題:我們將它修復到哪個值?正如@pat 所指出的,在一般情況下,提高到非整數是一個壞主意。但是,正如您所注意到的,人們可以使用回歸量的絕對值提高到一個有理指數,因為 $ f(q) = |a^q| $ 是連續的和真實的 $ q \in \mathbb{Q} $ . 那麼為什麼要堅持整數值指數呢?一個簡單的原因是懶惰:計算要簡單得多 $ x^2 $ 比 $ x^{1.95} $ ,第二個原因是慣例。第三個原因是指數的微小變化對模型的影響很小。這些論點不適用於有理指數會產生顯著改善的情況。不幸的是,這存在嚴重的方法論問題:如上所述,使用指數參數會使估計變得更加困難,也許更重要的是,它會減少簡約性。固定指數的最後一個選項是可能的。然而,為這一特殊選擇辯護需要強有力的經濟論據。如果您的應用程序是這樣的,那麼絕對清楚的是 $ q \in \mathbb{Q} $ 是合理的,那麼您可以自由地這樣做。沒有我所知道的方法論問題。但要為你的批評者做好準備,他們會注意到並且會要求你證明你的特定選擇是合理的 $ q $ .
另一個選擇的理由 $ e_i = 2 $ 是與回歸量取叉積的對稱性,從這個角度來看,正方形是與自身的叉積。