將搜尋模型寫為誘導後驗信念的信號密度
考慮一個決策者(DM),他從有限集中選擇一個動作 $ \mathcal{Y} $ 有基數 $ L. $
他得到的回報取決於所選擇的行動和世界的狀態。世界狀態表示為 $ z\equiv (z_1,…,z_L)\in \mathcal{Z}^L\subseteq \mathbb{R}^L $ . DM 選擇行動時的回報 $ y\in \mathcal{Y} $ 世界的狀態是 $ z\in \mathcal{Z}^L $ 表示為 $ u(y,z_y) $ .
在選擇 DM 之前不觀察世界的狀態。他之前的 $ z $ 表示為 $ F_Z\in \Delta(\mathcal{Z}^L) $ 並且具有相等的邊際 $ y $ .
在選擇DM之前可以發現 $ z $ 通過順序搜尋並支付費用 $ c_y $ 揭開時 $ z_y $ 對於每個 $ y\in \mathcal{Y} $ .
當搜尋停止時,DM 選擇行動 $ y $ 在搜尋到的動作中最大化他的回報。
問題
我們能找到一個條件信號密度嗎 $ P_{T}(\cdot|z)\in \Delta(\mathcal{T}) $ 這樣上面的問題就可以改寫為 $$ \max_{y\in \mathcal{Y}}\sum_{z\in \mathcal{Z}} u(y,z_y) \underbrace{\frac{P_T(t|z) F_Z(z)}{\sum_{z\in \mathcal{Z}}P_T(t|z) F_Z(z)}}_{\text{Posterior belief by Bayes rule}} $$ 對於每個 $ t\in \mathcal{T} $ ?
我不完全確定您所說的“在選擇 DM 之前可以發現 $ z $ 通過順序搜尋並支付費用 $ c_y $ 揭開時 $ z_y $ 對於每個 $ y\in Y $ 。”
然而,聽起來你想讓你的 DM 選擇一個停止時間, $ t $ ,和一個動作, $ y $ . 由於 DM 是按順序搜尋的,因此是否繼續搜尋的決定將取決於搜尋如何影響他們的信念和搜尋成本,您沒有完全說明這一點。搜尋通常使您可以訪問一些會影響您的信念的信號,並且搜尋成本通常是定義的,而與信號的結果無關。你沒有指定這樣的搜尋信號,聽起來你發現狀態才需要支付搜尋費用 $ z_y $ . 但是,讓我回答你的問題。
在高層次上,你不能通過信號密度重寫你的問題, $ P_T(\cdot|z) $ ,因為重寫不包括搜尋成本。
statemet 的論證:假設有一個定義明確的搜尋問題,並且決策者選擇 $ y\in Y $ 只有在搜尋階段結束後(如果這些假設不正確,我的論點只是加強)。給定一個最優搜尋策略(只能依賴於先驗 $ F_Z $ , 搜尋成本 $ c_z $ ,以及(也許)搜尋過程中的臨時信念),對於世界的每個狀態,DM 將(機率地)以一些信號序列(他們搜尋的每個時期一個信號)結束。用不同的元素表示每個可能的序列 $ T $ 然後讓 $ P_T(t|z) $ 是 DM 以序列結尾的機率 $ t $ 當狀態是 $ z $ . 然而,每個信號序列通常會有不同的成本。一般來說,這個成本不能被機率密度擷取。
如果搜尋是免費的,那麼可以肯定,您的問題是選擇之一 $ y $ 最大化期望效用,其中期望與搜尋後出現的一些後驗信念有關,以及密度 $ P_T(\cdot|z) $ 是總結假定定義明確的搜尋過程的對象。