如何分析這種二人、資訊不完全、形式廣泛的博弈?
博弈樹: 請注意,玩家 1 的資訊集由紅色虛線表示,而玩家 2 的資訊集由藍色陰影帶錶示。
用文字描述,遊戲涉及以下一系列步驟:
- 玩家 1 選擇要麼傷害玩家 2 成為強類型的機會,要麼什麼都不做。如果玩家 1 決定受傷,那麼他花費1美元來換取玩家 2 從 $ 2/3 $ 到 $ 1/3 $ . 玩家 2 不知道玩家 1 是選擇傷害還是什麼都不做。
- 遊戲以適當的機率隨機決定玩家 2 是強型還是弱型。如果玩家 1 在步驟 1 中決定傷害,那麼玩家 2 是強類型的機率 $ 1/3 $ . 否則,玩家 2 是有機率的強類型 $ 2/3 $ . 玩家 1 不知道玩家 2 的類型,而玩家 2 知道自己的類型。
- 玩家 2 選擇留在遊戲中或提前退出遊戲。如果他決定退出,那麼如果他是強型,他會自由走開,但如果他是弱型,他必須花費1美元退出。如果他決定留下來,那麼遊戲進行到步驟 4。
- 玩家 1 選擇戰鬥或逃跑。如果玩家 1 逃跑,那麼玩家 2 無論類型如何都會自由走開。如果玩家 1 決定戰鬥,那麼結果取決於玩家 2 的類型。如果玩家 2 是強類型,那麼玩家 1 輸掉戰鬥,必須向玩家 2 支付3美元。如果玩家 2 是弱類型,然後玩家 1 贏得了比賽,他可以從玩家 2 那裡獲得 3美元的付款。
- 在任何情況下,玩家 1 的最終收益都考慮了他是否在步驟 1 中花費了1美元來傷害。
問題:
這是一個相當複雜的遊戲。我什至不知道如何開始解決它。我應該如何分析這樣的遊戲?
不能保證隨機遊戲可以通過簡單的技巧來解決。(例如,參見庫恩撲克。)
你在課堂上學過這樣的東西嗎?如果有,老師有沒有循序漸進的方法?也許這些台階沒有被指定為台階,但如果你回顧它,你可能會意識到它們是什麼?如果是,您可能應該遵循該邏輯。
否則你應該
- 嘗試消除嚴格支配的策略以使遊戲更簡單(迭代)。
- 分配機率變數 ( $ p_1,p_2,\dots $ ) 到非消除策略。
- 尋找在支持集中具有所有剩餘策略的混合均衡(考慮到他們的條件信念,玩家應該對選擇這些策略無動於衷)。
- 如果您有時間並且可以嘗試,請尋找具有較小支持集的混合平衡。
差不多就是這樣。
編輯:
相對於預期收益,“花費傷害”對於玩家 1 來說非常昂貴。因此,除非我在某處計算錯誤,否則解決方案實際上並沒有那麼複雜。
$ P_2 $ : 強型要一直留,這是她的弱佔優策略。(不是永遠停留的嚴格證明。)
$ P_1 $ :跟隨“什麼都不做”不應該打,因為 $ P $ (類型=強 $ | $ 停留) $ \geq 2/3 $ 這意味著戰鬥失去3比獲得3更頻繁。(最多可以贏 $ 1/3 $ 的時間。)
$ P_1 $ 繼“花錢傷害”之後的動作, $ P_1 $ 的初始動作和 $ P_2 $ 的弱式動作還有待確定。
現在假設 $ P_2 $ 的弱類型動作是Stay。然後跟隨“花費傷害” $ P_1 $ 戰鬥比跑步好( $ 0 > - 1 $ )。在這種情況下,“花錢去傷害”和“什麼都不做”一樣好( $ 0 = 0 $ ).
$ P_2 $ 的弱類型動作 Stay 是最優的當且 $$ \frac{P(\text{Spend to hurt}) \cdot 2/3}{P(\text{Spend to hurt}) \cdot 2/3 + P(\text{Do nothing}) \cdot 1/3} \cdot (-3) + \frac{P(\text{Do nothing}) \cdot 1/3}{P(\text{Spend to hurt}) \cdot 2/3 + P(\text{Do nothing}) \cdot 1/3} \cdot 0 $$ 大於或等於 $ -1 $ . 這是真的,當 $ P $ (花錢傷害) $ \leq 1/5 $ .
是否存在其他均衡?任何其他弱類型動作 $ P_2 $ 選擇減少 $ P_1 $ 在“花費傷害”之後,使其小於 0。這使得“什麼都不做”和隨之而來的“跑步”成為更好的選擇。然而,這將激勵 $ P_2 $ 總是逗留,產生矛盾。