簡單的鷹鴿式超級遊戲
我們有以下超級遊戲: $$ \begin{array}{cc} & a_1 & a_2 \ a_1 & 0,0 & -1,1 \ a_2 & 1,-1 & -2,-2 \end{array} $$ 我想表明觸發(或嚴峻)策略和相互懲罰,給出合作解決方案 $ (a_1,a_1)=(0,0) $ 對於折扣因子 $ \delta>\dfrac{1}{2} $ . 在相互懲罰的情況下,如果玩家觀察到 $ (a_1,a_1) $ 或者 $ (a_2,a_2) $ 在上一輪,他們選擇 $ a_1 $ . 如果他們觀察到 $ (a_1,a_2) $ 或者 $ (a_2,a_1) $ , 他們選擇 $ a_2 $ 一輪,然後我們假設他們再次合作。
我對第二個的想法是(玩家 1(p1)是線玩家,玩家 2 是縱隊玩家(p2)): 策略:只要我們合作,我們都會獲得零收益,所以價值函式是: $$ V_1^{C}= 0 + 0 \cdot \delta + 0 \cdot \delta^{2} + … = 0 $$ 假設 p2 單方面偏離第 1 輪的合作策略 $ a_2 $ ,所以第二輪雙方玩家都玩互罰策略,即 $ -2 $ 對每個人來說都是鬆散的。從那時起,我們假設它們都按照合作策略進行遊戲,即價值函式為: $$ V_2^{NC}=1 - 2 \cdot \delta + 0 \cdot \delta + 0 \cdot \delta^{2} + … = 1 - 2 \cdot \delta $$ 如果出現以下情況,他們將合作: $$ V_1^{C}>V_2^{NC}\Rightarrow \delta>\dfrac{1}{2} $$ 在嚴峻/觸發策略的情況下,玩家永遠停止合作,解決方案有何不同?
注:遊戲為鷹鴿型超級遊戲。
最後,我相信這很容易回答。好吧,如果某些玩家不合作並且啟用了觸發策略,我們有以下解決方案: Soppuse p2 在第一輪不合作,所以他將獲得 1 的 payoof,但在第二輪 p1 玩 $ a_2 $ 而且他不會永遠和p2合作。因此,我們有 p2 將播放 $ a_1 $ , 因為通過玩 $ a_2 $ 他增加了他的損失,價值函式是: $$ V_2^{NC}=1-1\cdot\delta-1\cdot\delta^2-1\cdot\delta^3+…=1-\delta\sum_{j=1}^{+\infty}\delta^{j}=1-\dfrac{\delta}{1-\delta} $$ 因此,如果出現以下情況,他們將合作: $$ 0>1-\dfrac{\delta}{1-\delta}\Rightarrow \delta>\dfrac{1}{2} $$ 不同的是,如果雙方玩家都選擇觸發策略,那麼 p2 也選擇 $ a_2 $ , 那麼兩者都會失去 -2 並且值函式是: $$ V_2^{NC}=1-2\cdot\delta-2\cdot\delta^2-2\cdot\delta^3+…=1-2\delta\sum_{j=1}^{+\infty}\delta^{j}=1-\dfrac{2\delta}{1-\delta} $$ 因此,如果出現以下情況,他們將合作: $$ 0>1-\dfrac{2\delta}{1-\delta}\Rightarrow \delta>\dfrac{1}{3} $$