動態規劃

連續時間更新價值函式 - HJB

  • April 21, 2016

當求解(數值上,通過值函式迭代)離散時間的動態規劃問題時,例如

$$ V_1(a) = \max_{c} \ u(c) + \dfrac{1}{1+\rho}V_0(a’) $$ 我們最大化控制變數並獲得一階條件,然後我們將其插入上面顯示的函式方程。這一步的結果, $ V(a)_1 $ , 然後將用於第二次迭代的 RHS

$$ V_2(a) = \max_{c} \ u(c) + \dfrac{1}{1+\rho}V_1(a’) $$ 我們重複這個過程直到 $ V(a)n-V(a){n+1}<\epsilon $ .

我的問題是價值函式的更新如何在連續時間內工作?我一直在寫一篇使用連續時間動態規劃的論文,所以貝爾曼方程如下所示

$$ \rho V_n(a) = \max_{c} \ u(c) + \dfrac{\partial V_n(a)}{\partial a}da_t \quad (*) $$ 其中轉移方程表示為 $ da_t $ . 從我所見,價值函式的更新是通過計算完成的 $ \Delta $ :

$$ \Delta = \ u(c(a^)) + \dfrac{\partial V_n(a)}{\partial a}da_t(a^) - \rho V_n(a) $$ 在哪裡 $ u(c(a^)) $ 和 $ da_t(a^) $ 將控制和轉移方程表示為最優策略的函式。也就是說,我們像前面的例子一樣最大化 RHS(離散時間情況),但是我們減去 $ \rho V(a) $ 從雙方。然後更新價值函式如下:

$$ V_{n+1}(a) = V_n(a) + \Delta $$ 怎麼會這樣?我原以為我會使用 (*) 的最大化 RHS 並重新插入新的迭代。為什麼另一種方法是正確的?

您迭代到一個固定點,因此您希望達到插入目前迭代值自行產生的情況。現在使用你的符號,我們被告知我們應該計算

$$ V_{n+1}(a) = V_n(a) + \Delta $$ 在哪裡

$$ \Delta = \ u(c(a^)) + \dfrac{\partial V_n(a)}{\partial a}da_t(a^) - \rho V_n(a) $$ 將第二個插入第一個以查看迭代規則是什麼:

$$ V_{n+1}(a) = V_n(a) + \ u(c(a^)) + \dfrac{\partial V_n(a)}{\partial a}da_t(a^) - \rho V_n(a) $$ 當你到達一個點時

$$ V_{n+1}(a) = V_n(a) $$ (或者 $ \epsilon $ -所以)

這將意味著

$$ \rho V_n(a)= \ u(c(a^)) + \dfrac{\partial V_n(a)}{\partial a}da_t(a^) $$ 這是你必須滿足的。

一些星星等可能需要在上面進行調整,以獲得完全一致的符號。

引用自:https://economics.stackexchange.com/questions/11658