不確定性決策問題中效用的下限
模型
考慮一個具有不確定性的單智能體決策問題。
決策者 (DM) 必須選擇行動 $ y\in \mathcal{Y} $ 可能沒有完全了解世界的狀況。 $ \mathcal{Y} $ 是一個有限集。世界的狀態是一個隨機變數 $ V $ 有支持 $ \mathcal{V} $ . 當 DM 選擇行動時 $ y\in \mathcal{Y} $ 世界的狀態是 $ v\in \mathcal{V} $ ,她收到了回報 $ u(y,v) $ . 讓 $ P_V\in \Delta(\mathcal{V}) $ 成為 DM 對世界狀況的先驗 $ V $ .
DM 也處理一些信號 $ T $ 有支持 $ \mathcal{T} $ 和分佈 $ P_{T|V} $ 有條件的 $ V $ 完善他的先驗並獲得後驗 $ V $ ,表示為 $ P_{V|T} $ ,通過貝氏規則。
DM 的策略是基於信號的動作分佈,我們將其表示為 $ P_{Y|T} $ . 這種策略是最優的,如果它最大化他的期望收益,期望是使用後驗計算的 $ P_{V|T} $ .
以後,我們叫 $ S\equiv (\mathcal{T}, P_{T|V}) $ 作為 DM 的資訊結構。
問題
在最壞的情況下,信號無法提供關於 $ V $ (空資訊結構)。在這種情況下,具有分配狀態的 DM $ v $ 會根據之前的選擇 $ P_V $ 並獲得實用程序 $$ \bar{u}(v)\equiv u\Big(\text{argmax}{y\in \mathcal{Y}} \int\mathcal{V} u(y,x) dP_V(x), v\Big). $$ 我們可以證明 $ \bar{u}(v) $ DM 在所有可能的資訊結構中可以獲得的最低效用是什麼?換句話說,取任何資訊結構至少與空資訊結構一樣具有資訊性;假設 DM 得到了一些信號 $ t $ 從這樣的資訊結構中;它是否認為
$$ u\Big(\text{argmax}{y\in \mathcal{Y}} \int\mathcal{V} u(y,x) dP_{V|T}(x|t), v\Big)\geq \bar{u}(v)\quad ? $$
簡單地說,決策者可以忽略所有附加資訊,並簡單地執行他們在沒有任何資訊的情況下會執行的相同操作。平均而言,最佳策略必須至少一樣好。
但它不一定在每個州都一樣好,這正是問題的形式主義所要求的。
假設有兩個動作, $ a $ 和 $ b $ ,以及三個同樣可能的狀態, $ 0 $ , $ 1 $ , 和 $ 2 $ . 支付函式由下式給出 $ u(a,0)=u(a,1)=u(a,2)=1 $ , $ u(b,0)=u(b,1)=-1 $ , 和 $ u(b,2)=4 $ . 沒有資訊,玩 $ a $ 顯然是最優的。假設現在決策者只知道狀態是否 $ 0 $ 或不。在狀態 $ 0 $ ,決策者依然會玩 $ a $ . 但在其餘各州,決策者將扮演 $ b $ . 因此,在狀態中收到的回報 $ 1 $ 會更糟。