博弈論
為什麼博弈論家使用這種形式的貼現收益?
原諒點擊誘餌標題。我注意到博弈論文獻中的貼現收益通常採用以下形式
$$ \sum_{t=1}^\infty\lambda(1-\lambda)^{t-1}R_t $$
這與其他動態優化設置中的貼現收益不同,例如,參見控制理論中的貝爾曼方程。
為什麼有區別?
以我的經驗,它主要只是為了結果的清潔。
考慮一個無限範圍重複博弈,具有折扣收益表示(我使用 $ \delta = (1-\lambda) $ 在你的符號中) $$ (1-\delta)\sum_{t=0}^{\infty}\delta^t R_t $$ 在哪裡 $ 0 < \delta < 1 $ .
假設我採取的策略給我同樣的回報,比如說 $ a $ , 對於每個時期 $ t $ . 然後, $$ (1-\delta)\sum_{t=0}^{\infty}\delta^t a = (1-\delta)\frac{a}{1-\delta} = a $$ 這比 $$ \frac{a}{1-\delta} $$ 作為旁注,將效用乘以常數不會改變偏好,因此我們保持固有偏好相同。