馬爾可夫完美納什均衡與狀態馬爾可夫演化的關係
我正在研究動態遊戲,我從根本上對馬爾可夫完美納什均衡和馬爾可夫狀態演化之間的關係感到困惑。在說明我的疑問之前,讓我描述一下基本框架。
考慮一個由我們索引的 N 個玩家玩的遊戲 $ i=1,…,N $ . 時間是離散的,並由 $ t $ . 在每個時期 $ t $ , 每個玩家 $ i $ 選擇一個動作 $ a_{it}\in \mathcal{A} $ , 在哪裡 $ \mathcal{A} $ 為簡單起見,在時間/玩家之間是有限且固定的。 $ a_t\equiv (a_{1t},…, a_{Nt}) $ 是所有參與者在 t 週期內的行為向量。在每個時期 $ t $ , 每個玩家 $ i $ 得到回報, $ \pi_i(a_t, x_t) $ ,這取決於 $ a_t $ 在一個公共知識狀態變數的向量上, $ x_t $ , 有支持 $ \mathcal{X} $ . 每個玩家 $ i $ 選擇最大化他的預期和貼現利潤流的行動 $$ E_t(\sum_{s=0}^\infty \beta_i \pi(a_t, x_t)) $$ 在哪裡 $ \beta_i $ 是折扣因子。
在應用工作中通常會做出兩個假設:
1.玩家玩馬爾可夫完美納什均衡(MPNE)。也就是說,他們在時期的策略 $ t $ 只是同一時期與收益相關的狀態變數的函式。
2.狀態變數的向量, $ x_t $ , 遵循具有轉移 CDF的一階控制馬爾可夫過程 $ F(x_{t+1}| x_t, a_t) $ .
我的理解是與收益相關的狀態變數(在ass.1中提到)是明確輸入的狀態變數 $ \pi $ . 在這種情況下,只需 $ x_t $ . 因此,玩家的策略是 $ \alpha\equiv {\alpha_i(x_t): i=1,…,N \text{ and } x_t\in \mathcal{X}} $ .
$ \alpha $ 如果滿足,則為 MPNE $$ (*) \quad \alpha_i(x_t)= \text{argmax}{a{it}\in \mathcal{A}} \Big{ \pi_i (a_{it}, {\alpha_j(x_t)}{j\neq i}, x_t)+\beta_i \int V_i^\alpha(x{t+1}) d F(x_{t+1}| x_t, a_{it}, {\alpha_j(x_t)}{j\neq i}) \Big} $$ 對於每個玩家 $ i $ 和狀態 $ x_t $ , 在哪裡 $ V_i^\alpha $ 是唯一求解貝爾曼方程的值函式: $$ (**) \quad V_i^\alpha(x_t)=\max{a_{it}\in \mathcal{A}} \Big{ \pi_i (a_{it}, {\alpha_j(x_t)}{j\neq i}, x_t)+\beta_i \int V_i^\alpha(x{t+1}) d F(x_{t+1}| x_t, a_{it}, {\alpha_j(x_t)}_{j\neq i}) \Big} $$
問題:
- 我對屁股之間的關係感到困惑。1和2。特別是在我看來,屁股。2對驢來說是“必要的”。1. 事實上,假設 $ x_t $ 遵循帶有轉移 CDF 的二階受控馬爾可夫過程 $ F(x_{t+1}| x_t, a_t, x_{t-1}, a_{t-1}) $ . 然後, $ x_{t-1}, a_{t-1} $ 會出現在 $ (*) $ 和 $ (**) $ , 此外 $ x_t $ . 反過來,這將使參與者的策略可以依賴的事實無效 $ x_t $ 只要。
- 在這裡,也許,我誤解了“與收益相關的狀態變數”的定義。這些是顯式輸入的狀態變數嗎 $ \pi $ (正如我最初所想的那樣),還是這些狀態變數對狀態的演變很重要?後一種解釋,如果正確,將消除任何混淆:例如,假設 $ x_t $ 遵循帶有轉移 CDF 的二階受控馬爾可夫過程 $ F(x_{t+1}| x_t, a_t, x_{t-1}, a_{t-1}) $ ; 在這種情況下,與收益相關的狀態變數將是 $ x_t, x_{t-1}, a_{t-1} $ . ; 反過來,MPNE 將成為一種策略 $ \alpha_i(x_t, x_{t-1}, a_{t-1}) $ 對於每個玩家 $ i $ .
- 假設 2 成立。您能否告訴我 MPNE 的定義與子博弈完美納什均衡的經典定義有何不同?特別是,如果狀態演變為一階馬爾可夫,為什麼玩家要根據過去的歷史來調整他的策略?
Q1。 假設 1 和 2 相互獨立。假設 2 是對遊戲基本原理的假設,如果您願意,可以進行設置,並且對解決方案沒有限制。它只是對遊戲的描述。
另一方面,假設 1 是對我們感興趣的均衡類別的選擇的假設。我同意假設 2 可以很自然地查看馬爾可夫完美均衡,但沒有這種內在的需要這樣做。
編輯:請參閱下面的 Micheal 評論以獲得更好的答案。
Q2。 你的後一種解釋是我會去的。
Q3。 這裡的 SPNE 將是一個時間和歷史相關的策略。所以 $$ a_{it}: \times_{i = 1}^{t} (\mathcal{A} \times \mathcal{X})_i \rightarrow \mathcal{A} $$ 即時期的策略 $ t $ 在狀態下 $ x_t $ 取決於已實現狀態和所執行操作的整個歷史。
其明確的馬爾可夫策略是上述的一個特例。