數據
子集選擇以辨識影響市場的自變數?
鑑於許多與市場相關的特徵(約 100 個自變數,例如新興市場、發達市場、標準普爾 500 指數、科技股回報等),我需要從中選擇一個理想的獨立變數,並且是時間 t=t1 到 t=t2 期間的全球股票市場回報。
具體來說,模型必須在以下情況下辨識重要/非重要變數:1) 自變數 (p) 的數量很大 (~100) 2) 樣本數量 (n) < 自變數的數量 (p)當 n >= p
Lasso 和 PCA 是實現這一目標的好方法嗎?我猜 Lasso 是一種簡單易行的方法。我認為 PCA 的問題在於結果的解釋並不容易……
有沒有處理這個問題的學術文獻(選擇一個大自變數的子集來預測全球股市收益)
關於資產定價 Lasso 的文獻是最近才出現的,目前還很少有參考資料。主要有:
- Freyberger、Neuhierl、Weber - 非參數剖析特徵- 這使用 Lasso。
- Huang and Shi (2016) - 也是套索。
- Horowitz (2016) - 概述了高維模型中的模型選擇
還有幾篇關於 PCA 的論文: