為什麼 tat-for-tat 策略是無限重複博弈中的納什均衡?
為什麼 tat-for-tat 策略是無限重複博弈中的納什均衡,而不是有限場景中的納什均衡?專門針對這個矩陣:
假設更高的回報反映更高的效用。這是一種囚徒困境。
由於針鋒相對假設我們從(榮譽,榮譽)開始,並採用其他玩家在未來幾輪中最後一次玩的策略,我真的不明白為什麼它是無限場景中的納什均衡而不是有限場景.
在有限的情況下(例如一輪),玩家會不會因為遵循自己的利益而最終進入 NE(作弊,作弊)?在無限的情況下,假設折扣因子足夠高,他們最終會不會是(榮譽,榮譽)(不是 NE)?
任何清晰度表示讚賞!
(i) 在 1 輪的情況下,以牙還牙不是 NE。看到這個通知,正如你所描述的,針鋒相對的策略要求玩家玩 $ (H,H) $ 在第一輪(也是唯一一輪)中——正如你所指出的,這顯然不是 NE,因為任何一個玩家都可以通過改變她的策略來增加她的收益 $ H $ 到 $ C $ . 也許你錯過的是該策略包括第一輪的禁賽,這與納什的一擊必殺行為不一致。
(ii) 在 $ N $ - 圓案,再次以牙還牙不是NE。這一點(i)有點微妙,但不多。如果兩個玩家都按照策略進行遊戲,那麼他們將進入 $ N-1 $ 輪打 $ H $ . 在這一點上,策略決定了他們玩 $ H $ 在裡面 $ N^{th} $ ,最後,一輪。出於與 (i) 相同的原因,這不是最佳響應,因此不是均衡(請注意,前瞻性代理人會預料到這一點,因此該策略會立即失效,但分析最後一輪足以看出它不是平衡)。
(iii) 在無限重複的情況下,以牙還牙可以持續,但這取決於代理人如何將未來效用與目前效用進行比較。一般的邏輯是,由於事情沒有開始解開的最後階段,玩家總是願意放棄目前的效用以保持良好的信譽(以牙還牙的針鋒相對?)因此更高的未來(繼續)清償。當然,如果球員們關心今天的回報遠遠超過明天的回報,他們就會背叛和比賽 $ C $ . 有關無限重複遊戲中的 NE 的更多資訊,請參見此處。
編輯:這是一個不正確的答案。請忽略並查看下面的評論。
我不認為以牙還牙是無限重複遊戲的 NE。平均而言,以牙還牙是對抗許多其他策略的最佳策略。
例如,如果唯一的其他策略是一直偏離,那麼以牙還牙將會失敗。
閱讀道金的《自私的基因》以了解更多資訊。