貝爾曼方程的解是一個不動點
我最近開始研究動態優化。我不能完全理解貝爾曼方程的值函式是收縮映射的不動點這一事實。就我而言,我的理解相當幼稚:如果問題是有限的,請說:
$$ \sum_{t=0}^T \beta^tu(c_t) $$ 我們從頭開始構造貝爾曼方程,就好像我們事先知道序列的最大可能值一樣。從上一期開始 $ T $ ,我們只是通過添加反映目前時期效用的最佳項來重複最大化 $ u(c_t) $ , 直到我們到達這個時期 $ 0 $ . 從這裡我可以清楚地看到收縮映射是如何工作的。但無限情況對我來說並不容易理解:我只能假設,通過貝爾曼運算元的迭代 $ (Bv)(x) $ ,我們對策略函式進行“校準”,直到找到價值函式(即給定我們的橫向條件的最大可能效用) $ (Bv)(x)=v(x) $ . 至少,我是在朝著正確的方向思考,還是應該以不同的方式理解這個想法?先感謝您。(另外,這是我在 .stackexchange 上的第一個問題,如果我的問題呈現有任何問題,請告訴我)
我絕不是這方面的專家,但也許這會有所幫助。這是貝爾曼方程的一個簡單範例
$ V(y) = \max_x u(x,y) + \beta V(y’) $
$ s.t. , y’ = f(x,y) $
這是未知函式 V 中的函式方程。該問題的解決方案是滿足上述方程的函式 V。如果你看一下方程,很明顯解必須是貝爾曼方程 RHS 上運算符的一個不動點:如果你取正確的 V 和任意的 y 併計算
$ \max_x u(x,y) + \beta V(y’) $
$ s.t. , y’ = f(x,y) $
你會得到 $ V(y) $ . 貝爾曼方程的 RHS 運算元對函式進行運算,解是某個函式空間中的不動點。
這個固定點是否存在以及如何找到它是一個不同的問題。在這裡,您求助於收縮映射定理:在對 u 和提供的典型假設下 $ \beta<1 $ ,上面的最大化步驟是對V的任何猜測的收縮映射。這意味著存在唯一的不動點V,您可以通過連續迭代找到它。