機器學習

房價通脹模型

  • January 28, 2021

我有一組房價及其相應特徵(房間、平方米等)的數據集。另一個特點是房子的出售日期。目的是創建一個模型,可以估計房子的價格,就好像它今天賣掉了一樣。例如,具有一組特定功能(5 個房間,100 平方米)和今天的日期(28-1-2020)的房子,它會賣什麼?時間是一個重要組成部分,因為價格會上漲(隨著時間的推移而上漲)。我正在努力尋找一種方法將銷售日期作為梯度提升模型中的一個特徵。

我認為有幾種方法:

  1. 將數據轉換為整數,並將其作為特徵直接包含在模型中。
  2. 創建一個單獨的模型來模擬房價隨時間的變化。讓我們將其視為某種 AR(1) 模型。然後我可以調整所有觀察到的通貨膨脹,這樣我們就可以得到今天的通貨膨脹調整價格。這些通貨膨脹調整後的價格將在特徵集上進行訓練。

您對這兩個選項有何看法?有沒有替代方法?

這裡的標準方法(您可能知道)是使用時間虛擬模型估計特徵回歸。但是,您面臨的問題(如果我理解正確的話)是估算具有給定特徵束的房屋在數據集中最後售出日期之後的時間的價格。

您可以採取的一種方法是估計參考房屋的房價指數(假設您有足夠的數據),將其向前預測,然後使用特徵回歸來自定義特定房屋的估計值。當然,該指數的前瞻性預測非常具有挑戰性。然而,至少在本地,房價確實顯示出顯著的序列相關性,因此預測未來一到兩個季度應該會給出合理的結果。

我認為我上面所說的有效地結合了你的(1)和(2)。另一種方法是取出模型中的時間虛擬變數,並將其替換為該地理區域截至銷售日期的重複銷售房價指數 (HPI) 的適當值。幸運的是,有一個高質量的免費重複銷售 HPI 可用FHFA 房價指數。儘管數據有些滯後(1-2 個月),但 FHFA HPI 經常更新。再一次,一個包含序列相關性和季節性影響的簡單時間序列模型應該允許您合理有效地估計接近今天日期的時間值。

引用自:https://quant.stackexchange.com/questions/60754