微分貝爾曼方程
假設我們有一個貝爾曼方程是
$$ V(k)=\max_{0\leq k’\leq f\left(k\right)}u\left(f\left(k\right)-k’\right)+\beta V\left(k’\right) $$ 教科書說,如果我們區分 $ k’ $ 並設置為 $ 0, $ 我們得到: $$ u’\left(f\left(k\right)-k’\right)=\beta V’\left(k’\right) $$
我的問題是:i)我們在這里區分什麼? $ V(k) $ ? 另外,我們如何在 max 運算符下進行區分?
從某種意義上說,貝爾曼方程是 $ V(k) $ ,如果寫成這樣可能會更明顯 $$ V(k):=\max_{0\leq k’\leq f\left(k\right)}u\left(f\left(k\right)-k’\right)+\beta V\left(k’\right). $$ 運營商 $ \max_{0\leq k’\leq f\left(k\right)} $ 告訴我們,得到 $ V(k) $ ,我們應該找到具體的 $ k’ $ - 讓我們稱之為 $ k’^* $ - 在哪個表達式 $ u\left(f\left(k\right)-k’\right)+\beta V\left(k’\right) $ 最大(如果存在這樣的最大值)。
為此,如果所涉及的函式具有正確的屬性,第一步是對 $ u\left(f\left(k\right)-k’\right)+\beta V\left(k’\right) $ 關於 $ k’ $ 並將結果設置為零。所以, $$ \frac{d}{dk’}u\left(f\left(k\right)-k’\right)+\beta V\left(k’\right) = 0, $$ 由此(經過一些數學運算)得出 $$ u’\left(f\left(k\right)-k’\right)=\beta V’\left(k’\right) $$ 最大(給定正確的屬性),所以不是無處不在,而是在哪裡 $ k’=k’^* $ . 無需進一步了解 $ u $ 和 $ V $ ,這至少給出瞭如何獲得的隱含規則 $ k’^* $ ,即通過 $$ u’\left(f\left(k\right)-k’^\right)=\beta V’\left(k’^\right) $$ 因為與 $ k’^* $ 我們現在找到了具體的 $ k’ $ 在哪個 $ u’\left(f\left(k\right)-k’\right)=\beta V’\left(k’\right) $ 是最大的,我們可以替換那個特定的值, $ k’^* $ , 進入初始定義得到 $$ V(k):=u\left(f\left(k\right)-k’^\right)+\beta V\left(k’^\right). $$ 在哪裡 $ \max $ 操作員消失了,因為 $ k’^* $ 已經在最大值處評估函式。我們看到了 $ V(k) $ 不依賴於 $ k’ $ .