建模
如何在預測建模中估算具有稀疏和非同步特徵的財務數據?
我觀看了一家大型量化金融公司的演講,該公司在預測建模方面投入了大量精力。演講者強調的一點是它們處理了很多非同步預測功能。因此,例如,一個特徵集可能圍繞幾家公司的季度收益,它可能用於預測與單個公司相關的一些未來的每日統計數據。數據是非同步的,因為(當然)並非所有數據都會同時到達,而且它是稀疏的,例如,收益事件可能每年僅發生四次。在此範例中,我們假設數據特徵矩陣具有每日時間尺度解析度。然而,他沒有確切討論他們如何匯總或估算缺失的數據。
我可以理解,一個人可能只是按季度匯總數據,但在他描述的情況下,對於相同的特徵矩陣(例如每日時間序列),還有其他特徵發生的頻率遠高於季度頻率。我的直覺是他們可能只是填寫稀疏特徵的空數據。
我很想知道是否有人建構了這類模型,以及他們如何清理數據集,然後繼續圍繞它測試某種模型。任何有實案例子的文獻都會很棒。
有大量關於 MIDAS(混合頻率數據採樣)模型的文獻,主要學者是 Eric Ghysels 和 Rossen Valkanov——Google他們的研究以獲取參考。然而,這些模型的動機主要是用高頻變數預測低頻的東西,例如,隨著每週失業數據的不斷出現,更新季度 GDP 預測。
最近,還引入了反向 MIDAS 模型(連結到一個這樣的模型),但在我看來,它們就像是具有滯後值且用途有限的良好舊回歸的包裝器。