計量經濟學建模中的數據探勘
如果我添加比理論建議更多的滯後,我會在時間序列分析中“探勘數據”嗎?例如,對於年度數據分析,建議兩個滯後足以捕捉變數之間的動態相互作用並解釋潛在的序列相關性。同樣,在使用季度數據的模型中,使用四個滯後是一種常態。然而,在許多情況下,理論所說的內容與人們在實際數據中可以觀察到的內容之間存在衝突。
只是想知道當我用超過 2 個滯後的年度數據來擴充模型時,它是否相當於“數據探勘”。假設使用資訊標準選擇滯後順序。
這裡的關鍵點是片語“建議……”和“使用四個滯後是一種規範”。“推薦”和“規範”基於什麼?是基於特定的流行理論模型,還是基於過去對特定類型數據的經驗?如果是後者,如果你嘗試不同的東西,你不會與任何經濟理論發生衝突。
這也是需要達成綜合的一個很好的例子,其中模型既有理論上的支持,也有足夠的統計意義(請查閱 Aris Spanos 教授的著作,尤其是書籍,了解這一重要的方法論問題)。
如果您採用從通用到特定 (Gets) 的建模策略,您的規範搜尋將從通用無限制模型 (GUM) 開始,該模型應包含您認為可能相關的盡可能多的滯後。在選擇初始滯後長度時,您可以足夠慷慨,因為您希望能夠從數據中學習(即其中包含的動態)。當然,經濟理論也指導 GUM 的規範,但如果你想允許發現(而不是僅僅強加理論),理論不應該決定 GUM。指定 GUM 後,應該將其簡化為簡潔且可解釋的形式,並刪除任何多餘的滯後。一旦確定了動態,您就可以將模型轉換為長期形式(大多數經濟學家都會對此感興趣)。從這個角度來看,在模型中添加額外的滯後並不是不明智的——這實際上是可取的!基本上,這一切都取決於滯後如何首先進入您的模型。因此,建議使用 Gets 方法提供的有效和系統的方法。
另一方面,您可以採用從特定到通用的建模策略。通過採用這種策略,模型會隨著計量經濟學建模過程的推進而增大,這與使用 Gets 時發生的縮減(模型變小)相反。擴展搜尋可能比收縮搜尋更容易受到數據探勘的影響。
在選擇滯後長度時,考慮模型的目的和數據的一般特徵(觀察次數和頻率)也很重要。
最後,很難回答這個問題,因為“探勘數據”和“數據探勘”這兩個片語是未定義的。例如,這些是否應該被解釋為貶義詞?