具有完整資訊的貝氏相關均衡
模型
考慮一個決策者 (DM) 必須選擇行動的遊戲 $ y\in \mathcal{Y} $ 可能沒有完全了解世界的狀況。
世界狀況有支持 $ \mathcal{V} $ .
當 DM 選擇行動時 $ y\in \mathcal{Y} $ 世界的狀態是 $ v\in \mathcal{V} $ ,她收到了回報 $ u(y,v) $ .
讓 $ P_V\in \Delta(\mathcal{V}) $ 成為 DM 的先驗。
DM 也處理一些信號 $ T $ 有支持 $ \mathcal{T} $ 分配 $ P_{T|V} $ 完善他的先驗並獲得後驗 $ V $ ,表示為 $ P_{V|T} $ ,通過貝氏規則。
讓 $ S\equiv {\mathcal{T}, P_{T|V}} $ 稱為“資訊結構”。
DM 的策略是 $ P_{Y|T} $ . 如果這種策略最大化他的預期收益,那麼這種策略是最優的,其中預期是使用後驗計算的。
現在讓我們定義 Bergemann 和 Morris(2013、2016 等)中提供的單人貝氏相關均衡的概念。
$ P_{Y,V}\in \Delta(\mathcal{Y}\times \mathcal{V}) $ 是 1 人貝氏相關均衡,如果
$ \sum_{y\in \mathcal{Y}}P_{Y,V}(y,v)=P_V(v) $ 對於每個 $ v\in \mathcal{V} $
$ \sum_{v\in \mathcal{V}}u(y,v) P_{Y,V}(y,v)\geq \sum_{v\in \mathcal{V}}u(k,v) P_{Y,V}(y,v) $ 對於每個 $ y $ 和 $ k\neq y $ .
Bergemann and Morris (2016) 中的定理 1 聲稱 $ P_{Y,V} $ 是單人貝氏相關均衡當且僅當存在資訊結構 $ S\equiv {\mathcal{T}, P_{T|V}} $ 和最優策略 $ P_{Y|T} $ 對於 DM,這樣 $ P_{Y,V} $ 是由 $ P_{Y|T} $ ,即對於每個 $ (y,v)\in \mathcal{Y}\times \mathcal{V} $ $$ (\star) \hspace{1cm}P_{Y,V}(y,v)=\sum_{t\in \mathcal{T}}P_{Y|T}(y|t)P_{T|V}(t|v)P_V(v) $$ [為簡單起見,我假設 $ \mathcal{T} $ 是有限的]
問題一:
完整資訊結構誘導的單人貝氏相關均衡是什麼樣的?
這是我試圖回答的。
我表示完整資訊結構的方式是 $$ S^{c}\equiv {\mathcal{T}\equiv \mathcal{V}, P_{T|V}(t|v)=1\text{ if $t=v$ and $0$ otherwise}} $$ 在下面 $ S^c $ , $ P_{Y|T} $ 是一個最優策略,如果對於每個 $ t\in \mathcal{T} $ 並且對於每個 $ y\in \mathcal{Y} $ 這樣 $ P_{Y|T}(y|t)>0 $ 我們有 $$ u(y,t)\geq u(k,t) \text{ }\forall k\neq y $$ [注意,即使在完整的資訊結構下,最優策略也可能是混合的,如果兩個動作導致相同的收益 $ u $ .]
因此,從 ( $ \star $ ) 並且對於每個 $ (y,v) $ $$ P^{c}{Y,V}(y,v)=\sum{t\in \mathcal{T}}P_{Y|T}(y|t)P_{T|V}(t|v)P_V(v)= \sum_{t\in \mathcal{V}}P_{Y|T}(y|t)P_{T|V}(t|v)P_V(v)= P_{Y|T}(y|v)P_V(v) $$
例如,假設 $ \mathcal{Y}\equiv {1,2,3} $ , $ \mathcal{V}\equiv {1,2,3} $ , $ P_V(1)=P_V(2)=P_V(3)=1/3 $ , 和 $$ u(1,1)=2, u(1,2)=4, u(1,3)=3\ u(2,1)=2, u(2,2)=3, u(2,3)=3\ u(3,1)=1, u(3,2)=3, u(3,3)=3\ $$ 那麼,一個可能的最優 $ P_{Y|T} $ 在下面 $ S^c $ 是 $$ P_{Y|T}(1|1)=1/2, P_{Y|T}(1|2)=0, P_{Y|T}(1|3)=1/3\ P_{Y|T}(2|1)=1/2, P_{Y|T}(2|2)=1/3, P_{Y|T}(2|3)=1/3\ P_{Y|T}(3|1)=0, P_{Y|T}(3|2)=1/3, P_{Y|T}(3|3)=1/3\ $$ 相應的 1 人 Bays 相關均衡為 $$ P^c_{Y,V}(1,1)=1/6, P^c_{Y,V}(1,2)=0, P^c_{Y,V}(1,3)=1/9\ P^c_{Y,V}(2,1)=1/6, P^c_{Y,V}(2,2)=1/9, P^c_{Y,V}(2,3)=1/9\ P^c_{Y,V}(3,1)=0, P^c_{Y,V}(3,2)=2/9, P^c_{Y,V}(3,3)=1/9\ $$
問題2:
是不是真的,對於每個 $ v\in \mathcal{V} $ , $ P^{c}{Y|V}(y|v)\equiv \frac{P^{c}{Y,V}(y,v)}{P_V(v)} $ 應該等於 $ 1 $ 為一個 $ y\in \mathcal{Y} $ 否則為零?
是不是真的,對於每個 $ y\in \mathcal{Y} $ , $ P^{c}{V|Y}(v|y)\equiv \frac{P^{c}{Y,V}(y,v)}{\sum_{v\in \mathcal{V}}P^c_{Y,V}(y,v)} $ 應該等於 $ 1 $ 為一個 $ v\in \mathcal{V} $ 否則為零?
問題3: 是不是通過添加約束 $ P_{Y,V}(y,v)>0 $ (嚴格)為所有人 $ (y,v)\in \mathcal{Y}\times \mathcal{V} $ 在上述單人貝氏相關均衡的定義中, 我們排除了 $ P^c_{Y,V} $ ? 為什麼?
問題 1
是的,由完全資訊豐富的資訊結構引發的 BCE 將如下所示。
即使有其他方法可以表示完全資訊化的資訊結構,也是如此。考慮到 $ T $ 作為標籤。一個完整的資訊結構應該使用每個元素 $ T $ 只標記世界上的一種狀態。這樣,當 DM 觀察到已實現的標籤時, $ t $ ,他們知道哪個是狀態。通過假設 $ T=V $ ,用不同的標籤標記每個狀態的自然方法是為每個狀態分配自己的標籤,即 $ P_{T|V}(t|v)=1 $ 當且僅當 $ t=v $ . 然而,重新洗牌標籤同樣提供資訊。例如,如果在狀態為“高”時以機率 1 發送標籤“低”,而當狀態為“低”時以機率 1 發送標籤“高”,則資訊結構不在 $ S^c $ ,但也非常有用,因為在接收到“低”信號(或標籤)後,DM 知道狀態肯定是“高”。(有一些方法可以使用排列或其他方式正式表示這一點,但我認為用文字會更清楚)。
問題2
這兩個問題的答案都是“不一定”。
1)如果 DM 正在選擇混合策略(正如您正確指出的那樣,即使有完整的資訊也是可能的)那麼 $ 1>P^c_{Y|V}(y|v)>0 $ 對於 DM 在得知狀態為 $ v $ .
2)如果有一個動作對世界的多個狀態是最優的,那麼 $ 1>P^c_{V|Y}(v|y)>0 $ 對於那些國家 $ y $ 是最優的。
在許多論文中,人們假設每個動作對於世界的一種且只有一種狀態是嚴格的更好。在這種情況下,您的兩個陳述都是正確的。
問題 3
是的,它是真實的:
聲明:滿足的 BCE $ P_{Y,V}(y,v)>0 $ 對全部 $ (y,v)\in Y\times V $ 不能由一個完整的資訊信號誘導。
證明:通過矛盾進行。假設一個 BCE, $ P_{Y,V}^* $ , 滿足限制並且由完全資訊化的資訊結構誘導。
考慮一些狀態, $ v_0 $ ,針對哪個動作 $ y_0 $ 不是最優的。請注意,如果沒有這樣的狀態,那麼決策問題將是微不足道的,因為所有動作對於世界上的所有狀態都是最優的。我假設存在這樣的一對。
現在,不失一般性,我們可以假設完全資訊結構是定義為的信號 $ S^c $ .
假設 $ P_{Y,V}^*(y_0,v_0)=\sum_{t\in T}P_{Y|T}(y_0|t)P_{T|V}^c(t|v_0)P_V(v_0)>0 $ ,因此至少有一個和必須是嚴格正的。然而, $ P_{T|V}^c(t|v)=0 $ 對全部 $ t\neq v_0 $ . 此外,對於 $ t=v_0 $ ,應該是這樣 $ P_{Y|T}(y|v_0)=0 $ 自從 $ y_0 $ 不是最優的 $ v_0 $ .
我們得出結論 $ P_{Y,V}^*(y_0,v_0)=0 $ ,即矛盾!