為什麼凱利賭博忽略賠率有一個直覺的解釋嗎?
我剛剛從 Cover & Thomas 的《*資訊論導論》的第 6 章了解了凱利賭博。*數學設置是我們有一場賽馬,有馬 $ i $ 以機率取勝 $ p_i $ . 如果馬 $ i $ 贏了,你收到 $ o_i $ 您下注的每一美元。你想像這場賽馬無限重複,你優化了“投注策略” $ b $ 反復下注的比例 $ b_i $ 你在馬身上的總財富 $ i $ .
在這種情況下,您的財富將成倍增長(或衰減)。如果您想最大化指數,Cover & Thomas 證明了選擇的凱利策略的最優性 $ b_i=p_i $ 適用於所有馬匹 $ i $ . 有關此內容的詳細說明,請參見此處的範例。
這對我來說似乎非常違反直覺——我原以為最佳策略取決於機率 $ o_i $ . 我遵循推導中的所有數學,但是對於這裡發生的事情是否有概念解釋?
讓我舉一個例子來說明這種現象。
**範例 1:**假設有兩匹馬的賽馬,其中第一匹馬有機率贏得比賽 $ 1/3 $ 第二個獲勝的機率 $ 2/3 $ . 馬用 $ 1 $ , 你收到 $ 2 $ 如果它贏了,你在賽道上下注的每一美元都會從賽道上獲得美元(當然, $ 0 $ 美元,如果它輸了)。賽馬場給出的賠率——即 $ 2 $ 在勝利的情況下美元 - 與馬相同 $ 2 $ .
定理說賭 $ 1/3 $ 你的財富騎馬 $ 1 $ 在每一步(以及馬 2 上的其餘部分),以最大化您財富長期指數增長率的指數。
**範例 2:**假設現在一切都保持不變,除瞭如果您在馬身上下注 1 美元 $ 2 $ ,如果您贏了,您現在將獲得 1,000,000 美元。
該定理表明最佳策略與範例 1 中的完全相同,這看起來很奇怪——直覺地說,在這種情況下,為什麼您不在馬 2 上多下注呢?
凱利賭博不會忽略賠率,作為機率給出的最優標準只是說明賠率的另一種方式。
這個相當不直覺的結果是對數目標的結果,即最大化財富的預期增長率而不是財富本身。
建立直覺的不同問題$$ Update 2019 $$
為了建立一些關於處理日誌變化而不是級別變化的直覺,讓我們想像一個沒有不確定性的世界。
想像一下你節省分數 $ b $ 您每個時期的財富並賺取利率 $ r $ , 因此財富 $ w_t=[b(1+r)]^t $ . 你的增長率基本上是對數財富的變化。更準確地說,您的瞬時增長率 $ g $ 是: $$ \begin{align*} g &= \frac{\partial \log w_t}{\partial t} \ &= \log b + \log (1+r) \end{align*} $$.
觀察在日誌中工作,節省術語 $ \log b $ 和利率期限 $ \log(1+r) $ 是線性可分的!
- $ \frac{\partial g}{\partial r} = \frac{1}{1+r} > 0 $ : 更高的利率確實提高了財富的增長率。
- $ \frac{\partial g}{\partial b} = \frac{1}{b} > 0 $ : 多儲蓄也會提高財富的增長率。多存的效果是 $ \frac{\partial g}{\partial b} $ .
- 但 $ \frac{\partial ^2}{ \partial b \partial r} = 0 $ !更高的利率不會改變儲蓄更多的效果!
這就是您的連結問題的結果背後的原因。當使用對數而不是級別工作時,馬的收益與您對馬的賭注線性可分。這兩個術語都會影響增長率,但兩者之間沒有相互作用。
(1)你的連結問題和(2)經典凱利問題之間的關係$$ Original answer $$
在這兩個問題中,目標是相同的:最大化預期的對數財富。不同的是您可以購買的證券集。
- 您連結到的問題是投資組合分配問題 $ m $ 箭頭證券 $ m $ 世界各國。例如在案例中 $ m=2 $ ,你有兩種有回報的證券: $$ \begin{bmatrix} o_1 \ 0 \end{bmatrix} \quad \quad \quad \begin{bmatrix} 0 \ o_2 \end{bmatrix} $$
- 在經典的二元凱利投注問題中,安全收益是:
$$ \begin{bmatrix} o_1 \ 0 \end{bmatrix} \quad \quad \quad \begin{bmatrix} 1 \ 1 \end{bmatrix} $$ 第二個安全是持有現金(即不下注)。這些問題的解決方案是完全兼容的。在這兩個問題中, $ t=0 $ 你用來購買的財富 $ t=1 $ 州內的回報 $ i $ 簡直就是 $ p_i $ . 在這兩個問題中,它都不取決於賠率 $ o_i $ . (這似乎取決於 $ o_i $ 在經典的凱利問題中,由於無風險的安全性造成的混淆。)
你的問題:設置
- 有 $ m $ 不同的馬(即結果)。
- 你賭分數 $ b_i $ 馬的財富 $ i $ .
- 馬 $ i $ 支付 $ o_i $ 如果你贏了並且有一個 $ p_i $ 獲勝的機會。
- 你必須賭上你所有的財富: $ \sum_i b_i = 1 $ .
因此,如果馬 $ i $ 贏了,你將擁有 $ o_ib_i $ 倍你原來的財富。您的預期對數財富是 $ \sum_{i=1}^m p_i (\log o_ib_i) $ .
最大化對數財富的期望:
這相當於最大化您的增長率。問題是:
$$ \begin{equation} \begin{array}{*2{>{\displaystyle}r}} \mbox{maximize (over $b_i$)} & \sum_{i=1}^m p_i (\log o_i + \log b_i) \ \mbox{subject to} & \sum_{i=1}^m b_i = 1 \end{array} \end{equation} $$ 這是一個凸優化問題,其中 Slater 條件成立,因此一階條件是必要且充分的。拉格朗日是 $ \mathcal{L} = \sum_{i=1}^m p_i (\log o_i + \log b_i) - \lambda \left(\sum_i b_i - 1\right) $
一階條件為: $$ \frac{p_i}{b_i} = \lambda \text{ for all $i$} \quad \quad \quad \sum_i b_i = 1 $$
因此 $ \lambda = 1 $ 和 $ b_i = p_i $ .
與經典凱利準則問題的關係(案例 $ m=2 $ )
您正在決定將多少財富分配給有風險的賭注 $ o_1 $ 以及支付賠率 1(即淨賠率 0)的無風險投注。這相當於將投資組合分配給有收益的證券 $ \begin{bmatrix} o_1\0\end{bmatrix} $ 和 $ \begin{bmatrix} 1 \ 1 \end{bmatrix} $ (兩者的價格都是 1)。
經典的凱利準則解決方案是代理分配:
- $ p_1 - \frac{p_2}{o_1 - 1} $ 價格為 1 和收益的證券 $ \begin{bmatrix}o_1 \ 0 \end{bmatrix} $
- $ 1 - p_1 + \frac{p_2}{o_1 - 1} $ 價格為 1 和收益的證券 $ \begin{bmatrix} 1 \ 1 \end{bmatrix} $
代理人在狀態 1 的收益是多少?
$$ \begin{align*} \left( p_1 - \frac{p_2}{o_1 - 1}\right) \cdot o_1 + \left( 1 - p_1 + \frac{p_2}{o_1 - 1} \right) \cdot 1 &= p_1o_1 \end{align*} $$
代理人在狀態 2 中的收益是多少?
$$ \left( 1 - p_1 + \frac{p_2}{o_1 - 1} \right) \cdot 1 = p_2 \left( \frac{o_1}{o_1 - 1} \right) $$
多少錢 $ t=0 $ 代理人是否按價格花費財富 $ \frac{1}{o_1} $ 獲得狀態 1 的回報?
$$ \begin{align*} b_1 = o_1p_1 \frac{1}{o_1} = p_1 \end{align*} $$ 從現有證券中,您可以建構具有價格的證券 $ 1 $ 和回報 $ \begin{bmatrix}1\o_2 \end{bmatrix} $ 在哪裡 $ o_2 = \frac{o_1}{o_1 - 1} $ .
代理人在價格上花費了多少財富 $ \frac{1}{o_2} = \frac{o_1-1}{o_1} $ 獲得狀態 2 的回報?
$$ \begin{align*} b_2 = \left( p_2 \left( \frac{o_1}{o_1 - 1} \right) \right) \frac{o_1-1}{o_1} = p_2 \end{align*} $$
所以解決方案是完全兼容的,你選擇 $ b_1 = p_1 $ 和 $ b_2 = p_2 $ 在經典的凱利問題中也是如此。