馬爾可夫決策過程、收縮和價值迭代
我正在審查馬爾可夫決策過程(MDP),關於收縮論點我缺少一些東西。我很確定這是某個地方的愚蠢錯誤(可能是計算錯誤),但無論如何,我無法弄清楚。就這樣吧。
考慮一個簡單的 MDP,它具有如下定義的兩個狀態和兩個動作。
$$ r(s,a) = \begin{pmatrix} 1 & 1 \ 1 & 1 \end{pmatrix}, $$ $$ P(s,s’,1) = \begin{pmatrix} 1 & 0 \ 1 & 0 \end{pmatrix}, $$ $$ P(s,s’,2) = \begin{pmatrix} 0.5 & 0.5 \ 0.5 & 0.5 \end{pmatrix}, $$ $$ \beta \in (0,1). $$ 現在假設我們從價值函式的兩個猜測開始
$$ V_1 (s) = \begin{pmatrix} 100 \ 0 \end{pmatrix}, $$ 和
$$ V_2 (s) = \begin{pmatrix} 0 \ 1 \end{pmatrix}. $$ 如果我們使用貝爾曼運算元迭代這些近似值函式,我們得到
$$ T(V_1) = \begin{pmatrix} \max_a \begin{cases} 1 + 100\beta, \qquad \text{ if } a = 1, \ 1 + 50\beta, \qquad \text{ if } a = 2. \end{cases}\ \max_a \begin{cases} 1 + 100\beta, \qquad \text{ if } a = 1, \ 1 + 50\beta, \qquad \text{ if } a = 2. \end{cases} \end{pmatrix} = \begin{pmatrix} 1 + \beta 100 \ 1+ \beta 100 \end{pmatrix} $$ 和
$$ T(V_2) = \begin{pmatrix} \max_a \begin{cases} 1 + 0\beta, \qquad \text{ if } a = 1, \ 1 + 0.5\beta, \qquad \text{ if } a = 2. \end{cases}\ \max_a \begin{cases} 1 + 0\beta, \qquad \text{ if } a = 1, \ 1 + 0.5\beta, \qquad \text{ if } a = 2. \end{cases} \end{pmatrix} = \begin{pmatrix} 1 + \beta 0.5 \ 1+ \beta 0.5 \end{pmatrix} $$ 但隨後對於 $ \beta $ 足夠接近 $ 1 $ 以曼哈頓範數為例,我們有
$$ d(V_1(s),V_2(s)) \approx 101, $$ 和
$$ d(T(V_1(s)),T(V_2(s))) \approx 199. $$ 現在這對我來說聽起來很奇怪,因為我認為 $ T $ 應該是收縮映射。我哪裡搞砸了?我的計算有錯誤嗎?我忘記應用一個重要的假設?還是我對收縮映射有誤解?
值迭代運算元是關於上範數的收縮。您的範例可能為它是相對於曼哈頓規範的收縮的陳述提供了一個反例。