在單智能體決策選擇問題中最優策略集是凸的嗎?
根據下面的評論進行編輯。
考慮一個決策者,他必須在 $ \mathcal{Y}\equiv {1,2,…,L} $ . 選擇行動的回報 $ y\in \mathcal{Y} $ 取決於世界的狀況, $ V $ , 有支持 $ \mathcal{V} $ . 具體來說,選擇動作 $ y\in \mathcal{Y} $ 引領回報 $ u(y,v) $ , 在哪裡 $ u:\mathcal{Y}\times \mathcal{V}\rightarrow \mathbb{R} $ .
假設決策者有關於實現的完整資訊 $ V $ 大自然繪製的。
這個選擇問題的(混合)策略是機率核, $ \mathcal{P}{Y|V}\equiv {P{Y}(\cdot| v)\in \Delta(\mathcal{Y}): v\in \mathcal{V}} $ ,收集機率分佈 $ Y $ 以每一個實現為條件 $ v $ 的 $ V $ .
因此, $ \mathcal{P}{Y|V} $ 是上述選擇問題的最優策略,如果 $ \forall v\in \mathcal{V} $ 這樣 $ P{Y}(y|v)>0 $ , 和 $ \forall \tilde{y}\neq y $ $$ \begin{aligned} u(y, v) \geq u(\tilde{y},v). \ \end{aligned} $$
讓 $ \mathcal{Q}^* $ 是上述選擇問題的所有最優策略的集合,即 $$ \mathcal{Q}^*\equiv \Big{\mathcal{P}{Y|V}: \forall v\in \mathcal{V}, \forall y \in \mathcal{Y}\ \hspace{6cm}\underbrace{P{Y}(y|v)>0 \Rightarrow u(y, v) \geq u(\tilde{y},v)\text{ } \forall \tilde{y}\neq y}_{\text{This is not a linear constraint because of the form “IF … THEN …”}}\Big} $$
**問題 1)的定義 $ \mathcal{Q}^ $ 剛剛給出的似乎強調了這一點 $ \mathcal{Q}^ $ 不是凸集。這是因為它是由“IF … THEN …”類型的約束定義的,它不是線性的。
這個評論正確嗎?
**問題 2)**考慮一個支付函式 $ u(1,v)=u(L,v)>u(y,v) $ $ \forall y \neq 1,L $ 和 $ \forall v \in \mathcal{V} $ . 考慮以下策略 $$
- \mathcal{P}{Y|V}\text{ s.t. } P{Y}(1|v)=1 \text{ and }P_{Y}(y|v)=0 \text{ }\forall y\neq 1, \forall v \in \mathcal{V} $$ $$
- \tilde{\mathcal{P}}{Y|V}\text{ s.t. } \tilde{P}{Y}(L|v)=1 \text{ and }\tilde{P}_{Y}(y|v)=0 \text{ }\forall y\neq L, \forall v \in \mathcal{V} $$ $$
- \mathcal{P}^_{Y|V;\alpha}\text{ s.t. } P^{Y}(1|v;\alpha)=\alpha P_Y(1|v) \text{, } P^*{Y}(L|v;\alpha)=(1-\alpha) \tilde{P}Y(L|v) \text{, and }P^*{Y}(y|v;\alpha)=0 \text{ }\forall y\neq 1,L, \forall v \in \mathcal{V}, \forall \alpha \in (0,1) $$ 我相信集 $$ \mathcal{B}\equiv {\mathcal{P}{Y|V}, \tilde{\mathcal{P}}{Y|V}, \mathcal{P}^*{Y|V;\alpha} \text{ }\forall \alpha\in (0,1)} $$ 是凸的。確實,在我看來 $ \mathcal{B} $ 是凸包 $ {\mathcal{P}{Y|V}, \tilde{\mathcal{P}}_{Y|V}} $ .
正確的?
之間有什麼關係 $ \mathcal{Q}^* $ 和 $ \mathcal{B} $ ?
我覺得 $ \mathcal{B}\subseteq \mathcal{Q}^* $ . 這是因為對於每個元素 $ \mathcal{B} $ , “IF … THEN …” 條件定義 $ \mathcal{Q}^* $ 很滿意。
做 $ \mathcal{Q}^\subseteq \mathcal{B} $ 也?如果我的斷言是問題 1) 是正確的,那麼它應該是 $ \mathcal{Q}^\supset \mathcal{B} $ 因為否則 $ \mathcal{Q}^* $ 將是凸的。但是在這裡我迷路了:哪個元素 $ \mathcal{Q}^* $ 不屬於 $ \mathcal{B} $ ?
套裝 $ Q^* $ 是一組關於最大值的機率分佈 $ u $ 對於每個值 $ v $ . 所以對於一個固定的 $ v $ 的所有值 $ Y $ 具有正機率的必須給出相同的效用。也就是說,如果 $ P_Y(y|v)>0 $ 和 $ P_Y(y’|v)>0 $ 然後 $ u(y,v)=u(y’,v)\geq u(\tilde y,v) $ 對全部 $ \tilde y\neq y, y’ $ . 因此,元素的凸組合 $ Q^* $ 也必須是機率分佈的集合 $ P_{Y|V} $ 支持在相同的元素 $ Y $ . 也就是說,凸組合也將支持 $ u $ 對於每個 $ v $ .
總之,即使不能保證最大化器的集合是凸的,集合 $ Q^* $ ,分佈,是一個凸集。