時間序列

基於訂閱的收入預測

  • February 5, 2020

我的數據集是基於訂閱的收入(沒有承諾,可以隨時取消)。我們每年都有人註冊,繼續支付幾年,然後逐漸取消訂閱。

一年的總收入部分來自前幾年加入(並且仍然活躍)的訂閱者,也來自今年加入的訂閱者。

在這種情況下,我如何預測未來幾年的收入?在下面顯示的範例數據中,我們可以看到在 FY2003/04 和 FY2004/05 加入的人如何為截至 2017/18 財年的收入做出貢獻。

在此處輸入圖像描述

我能想到的一種可能的方法是增加每個收入年度的收入,然後對 2018/19 財年和 2019/2020 財年進行簡單的時間序列預測。但我們可能會遺漏有價值的資訊,例如很早就加入的人(在 2003/04 財年)往往比最近加入的人停留的時間更長。

如果有人能提出任何適當的方法來處理這個問題,我將不勝感激。我對 Excel、R 和 Python 以及大多數通用機器學習算法感到滿意。謝謝

基準模型

正如@Luck 所評論的,最基本的統計數據是使用您的數據來預測每年有多少現有客戶取消訂閱,以及您每年可以獲得多少客戶。

該方法不考慮原始獲取年份,也不考慮客戶生命週期。

要計算這些數字,您需要重組數據,以便您擁有:

Year    Customers At Start    Cancelled    New Customers
2003    100                   10           20
2004    110                   13           21
2005    118                   etc..

使用這個模型來預測未來幾年。

生命週期模型

如果您認為存在基於生命的不同結構,您可以使用匯總數據來確定取消的機率。

這種方法沒有考慮多年來訂戶資料的趨勢。

您需要將數據重組為:

Customer Acquistions    Cancel in 1Y   Cancel in 2Y   Cancel in 3Y   etc..
10000                   1000           150            125

使用此模型對未來幾年的老化和新獲得的客戶進行預測。

趨勢生命週期模型

如果您使用結構化的數據,您基本上可以為每個起始年份派生一個生命週期模型。現在數據將更加分散(如果您有小樣本)並且您可能沒有可觀察到的趨勢。如果您確實有一個可觀察的趨勢,您可以使用它來為未來的客戶預測生命週期模型。就個人而言,我肯定會首先根據您擁有的數據建構上述兩個模型。這個模型存在過度擬合的危險,而前兩個可能更通才。

引用自:https://quant.stackexchange.com/questions/51003