一個複雜的互動項能否比它所包含的含義更多?
我在經濟學和交叉驗證上交叉發布這個問題,以便從每個領域的不同角度獲得答案。如果問題經過定制以更好地適應每個社區,則通常接受交叉發布。請參閱:https ://meta.stackexchange.com/a/64069/510233
在交叉驗證中交叉發布:https ://stats.stackexchange.com/q/403213/243829
我將嘗試盡可能詳細,以最好地傳達我想在這個問題中了解的內容。
在經濟數據中,有一些變數是由許多其他變數組成的。主要是指數或倍數。我可以想到一些例子,比如 CPI、消費者信心指數,甚至 EV/EBITDA、PER。
更好和更普遍的例子是風寒溫度指數,它是
在哪裡:
WCI
= 風寒指數,kcal/m2/hv
=風速,米/秒Ta
= 空氣溫度,°C我想知道的是,像 WCI 這樣的變數是否可以比 v 和 Ta 單獨組合具有更多的含義(效果)。
根據我在計量經濟學課程的回歸分析中學到的知識,一個簡單的互動項如將被解釋為對照組(D = 0)和治療組(D = 1)之間邊際效應的差異,表達如下:
此外,更一般的互動項,如 VariableA * VariableB 將被解釋為 VariableA 對 VariableB 係數的影響,在某些範例中,如
PollutionLevel = B0 + B1*Population + B2*NumberOfCars + B3*Population*NumberOfCars = B0 + B1*Population + (B2 + B3*Population)*NumberOfCars
(最初來自發佈在 Cross Validated 上的問題)
但我認為這些解釋過於簡單,無法捕捉從其他變數派生的新變數的全部含義(效果),這會導致其他問題,例如:
WCI
在回歸視角中對超級複雜互動項的解釋是什麼?(以及其他數據科學方法,如隨機森林或深度神經網路等,如果可能的話。)WCI
當我已經擁有v
and時,在模型中包含一個解釋變數是否仍然有效且更可取Ta
?它會使模型更準確嗎?- 直覺上,我覺得人們會更關心重要的指標,但不一定關心它所組成的變數。從其他變數派生的複雜互動項能否比其他變數的簡單組合產生更大的影響?
第三個與我最初的問題有關,即由數據集中的其他變數組成的一個變數是否會對因變數產生更大的影響。
我能想到的一個例子是*收益率曲線的陡度,*這在債券市場中被認為是非常重要的,它僅僅是具有不同 YTM 的債券利率的斜率。
人們似乎更關心收益率曲線的斜率,而不是每個債券的單個利率,所以我認為它是一個合法的解釋變數,但目前尚不清楚從現有變數中引入這個新變數是否合理,或者應該如何解釋它。
您所描述的“複雜互動項”通常稱為複合變數。互動項是兩個或多個變數的乘積。您還使用諸如“效果”和“意義”之類的術語,從技術上講,它們似乎指的是公正性、準確性和解釋性問題。
如果復合變數是其他變數(例如,它們的總和)的線性組合,那麼在其分量上包含該變數不會改變線性回歸模型的預測能力,儘管它會改變回歸係數的解釋。如果是非線性組合,比如你的
WCI
變數的情況,那麼你會線上性回歸模型中得到不同的預測。如果您有興趣解釋WCI
對您的因變數/結果變數的影響(或者如果您認為它位於因果路徑中並影響對另一個感興趣的變數的解釋),那麼您應該包括WCI
在模型中。WCI
解釋將是回歸模型的標準,即在保持其他變數不變的情況下,因變數的值每增加一個單位,預計會發生多少變化。但是,如果您對風速或溫度對結果的影響感興趣,那麼您將很難用WCI
used 作為解釋變數來解釋結果。包括互動項或複合變數也可以降低係數估計的精度,就像多重共線性時一樣。在純預測(機器學習)模型中,您最感興趣的是模型的預測能力,而不是變數的解釋。這些模型很容易接受“工程”變數(因此,“特徵工程”對於像隨機森林這樣的模型非常重要,儘管對於深度學習不是)。準確性將取決於很多因素,但使用複合變數肯定會有所幫助。