博弈論

單人貝氏相關均衡中的資訊結構範例

  • March 22, 2020

模型

考慮一個決策者 (DM) 必須選擇行動的遊戲 $ y\in \mathcal{Y} $ 可能沒有完全了解世界的狀況。

世界狀況有支持 $ \mathcal{V} $ .

當 DM 選擇行動時 $ y\in \mathcal{Y} $ 世界的狀態是 $ v\in \mathcal{V} $ ,她收到了回報 $ u(y,v) $ .

讓 $ P_V\in \Delta(\mathcal{V}) $ 成為 DM 的先驗。

DM 也處理一些信號 $ T $ 有支持 $ \mathcal{T} $ 分配 $ P_{T|V} $ 完善他的先驗並獲得後驗 $ V $ ,表示為 $ P_{V|T} $ ,通過貝氏規則。

讓 $ S\equiv {\mathcal{T}, P_{T|V}} $ 稱為“資訊結構”。

DM 的策略是 $ P_{Y|T} $ . 這種策略是最優的,如果它最大化他的期望收益,其中期望是使用後驗計算的, $ P_{V|T} $ .


問題

假設 DM 發現世界的狀態, $ v $ , 是一個數字 $ [a,b]\subset \mathcal{V} $ . 這可以寫成資訊結構(即信號的分佈)嗎?

信號結構必須指定 DM 在世界上所有可能的狀態下學習什麼,所以我認為你的問題應該是:

“假設 DM 發現世界的狀態是否 $ v\in V $ 在 $ [a,b]\subset V $ 或不。這可以寫成資訊結構嗎?”

或應閱讀:

“假設 DM 發現了世界的狀態 $ v\in V $ 每當它在 $ [a,b]\subset V $ 否則學習最小值。這可以寫成資訊結構嗎?”。

從問題的評論來看,我認為您對第一個更感興趣。無論如何,有幾點意見很重要:

  1. 您希望 DM 將正機率分配給一個區間,並且有很多方法可以做到這一點。您之前有一些限制,但它們相對溫和。最重要的是 $ P_V(v)>0 $ 對全部 $ v\in [a,b] $ . 也就是說,先驗必須為區間中的所有數字分配正機率。
  2. 即使您決定要為每個點分配多少機率(假設考慮到上述限制是可行的),也有許多信號結構可以實現這一點(因此,我將僅提供幾個範例)。

範例 1:

認為 $ V=\mathbb{R} $ (實線),和 $ P_V $ 是實數上的正態標準分佈,假設您有興趣找到一個信號,使得後驗 $ P_{V|T} $ 是正態標準分佈截斷為 $ [a,b] $ . 那麼信號結構可以簡單如下:

讓 $ \mathcal{T}={blue,red} $ $$ P_{T|V}(blue|v)=\left{\begin{array}{c c} 1 & ; v\in[a,b]\ 0 & ; v\notin [a,b] \end{array}\right. \ \ \ \forall v\in V $$

當然 $ P_{T|V}(red|v)=1-P_{T|V}(blue|v) $ .

請注意,如果 DM 收到“藍色”信號,他們會推斷狀態處於 $ [a,b] $ ,並且因為信號“藍色”對於在 $ [a,b] $ ,則後驗與前驗具有相同的形狀(即,它將是截斷的法線)。將此與以下信號進行對比:(為簡單起見,我們假設 $ [a,b]=[1,2] $ :

$$ P_{T|V}(blue|v)=\left{\begin{array}{c c} \frac{1+v}{3} & ; v\in[a,b]\ 0 & ; v\notin [a,b] \end{array}\right. \ \ \ \forall v\in V $$

和 $ P_{T|V}(red|v)=1-P_{T|V}(blue|v) $

現在,接收到“藍色”信號也使 DM 推斷狀態處於 $ [a,b] $ ,但是當狀態更接近時,信號結構更頻繁地發送消息“藍色” $ b $ ,所以後驗將更高的機率分配給更接近的狀態 $ b $ 比截斷的法線會做的事情,並且更接近狀態的機率更小 $ a $ .

範例 2:

相反,你想要從你的信號中得到的是第二種解釋。即, “假設 DM 發現了世界的狀態, $ v\in V $ , 每當它在 $ [a,b]\subset V $ 否則學習最小值。這可以寫成資訊結構嗎?”

你可以簡單地讓 $ T=\mathbb{R} $ 並定義信號結構如下:(為簡單起見,再次假設 $ [a,b]=[1,2] $ )

$$ P_{T|V}(t|v)=\left{\begin{array}{c l} 1 & ; \ t=v \ & \ v\in[a,b]\ 1 & ; \ t=0 \ & \ v\notin[a,b]\ 0 & ; \ otherwise. \end{array}\right. \ \ \ \forall v\in V $$ (這裡的消息“0”可以是任何其他不在 $ [a,b] $ .)

因此,只要狀態超出區間,DM 就會收到信號“0”

$$ a,b $$(所以他們學習盡可能少)或者當狀態處於區間內時,他們學習世界的狀態(通過獲取消息“v”)。

引用自:https://economics.stackexchange.com/questions/34538