以前的研究人員是否僅僅因為統計謬誤而未能檢測到熱手?
許多籃球迷/球員認為,連續投幾球後,下一次投籃更有可能進入。這有時被稱為熱手。
從Gilovich、Mallone 和 Tversky (1985)開始(我認為),“證明”這實際上是一個謬論。即使連續幾次投籃命中,下一次投籃也不會比你的平均投籃命中率更高。
Miller 和 Sanjurjo (2015)認為,熱手確實存在,以前的研究人員只是淪為一個相當基本的統計謬誤的犧牲品。他們的論點是這樣的:
擲硬幣四次。計算 H 跟隨 H 的機率。舉幾個例子:HHTT 的機率為 1/2,HTHT 的機率為 0/2,TTHH 的機率為
0/11/1,TTTT 和 TTTH 均為 NAMiller 和 Sanjurjo 的妙語是這個機率的期望值不是 0.5,而是≈0.4。而以前的研究人員所犯的錯誤是錯誤地假設這個機率的期望值為0.5。因此,例如,如果這些先前的研究人員進行了上述擲硬幣實驗並發現平均機率是 0.497,他們錯誤地得出結論認為沒有熱手的證據(與 0.5 沒有顯著差異),而實際上非常熱手的有力證據(與 0.4 顯著不同)。
我的問題是:**Miller 和 Sanjurjo 是否正確,以前的研究人員僅僅因為這個錯誤而未能檢測到熱手?**我只瀏覽過一兩篇關於這方面的論文,所以我想從這裡可能更了解這些文獻的人那裡得到一些確認。持續了三年或更長時間,這似乎是一個令人驚訝的愚蠢錯誤。
(這個答案在 2017 年 7 月被完全重寫,以提高畫質晰度和可讀性。)
連續拋硬幣 100 次。
在連續三個尾巴後立即檢查翻轉。讓 $ \hat{p}(H|3T) $ 是在連續三個正面連續三個尾巴之後擲硬幣的比例。同樣,讓 $ \hat{p}(H|3H) $ 是連續三個正面朝上後擲硬幣的比例。(此答案底部的範例。)
讓 $ x:=\hat{p}(H|3H)-\hat{p}(H|3T) $ .
如果擲硬幣是獨立同分佈的,那麼“顯然”,在許多 100 次擲硬幣的序列中,
(1) $ x>0 $ 預計會經常發生 $ x<0 $ .
(2) $ E(X)=0 $ .
我們生成一百萬個 100 次擲硬幣的序列,並得到以下兩個結果:
(一世) $ x>0 $ 發生的頻率大致與 $ x<0 $ .
(二) $ \bar{x} \approx 0 $ ( $ \bar{x} $ 是平均值 $ x $ 跨越百萬個序列)。
因此我們得出結論,拋硬幣確實是獨立同分佈的,並且沒有證據表明有熱手。這就是 GVT (1985) 所做的(但用籃球代替擲硬幣)。這就是他們得出的結論,即熱手不存在。
**Punchline:令人震驚的是,(1)和(2)是不正確的。**如果硬幣翻轉是獨立同分佈的,那麼它應該是那個
(1-校正) $ x>0 $ 僅發生大約 37% 的時間,而 $ x<0 $ 大約 60% 的時間發生。(在剩下的 3% 的時間裡,要麼 $ x=0 $ 或者 $ x $ 是未定義的——要麼是因為在 100 次翻轉中沒有連續 3H 或沒有連續 3T。)
(2-校正) $ E(X) \approx -0.08 $ .
所涉及的直覺(或反直覺)類似於其他幾個著名的機率謎題:蒙蒂霍爾問題、兩個男孩問題和限制選擇原則(在紙牌遊戲橋牌中)。這個答案已經足夠長了,所以我將跳過對這種直覺的解釋。
**因此,GVT(1985)獲得的結果(I)和(II)實際上是支持熱手的有力證據。**這就是 Miller 和 Sanjurjo (2015) 所展示的。
進一步分析 GVT 的表 4。
許多人(例如下面的@scerwin)——沒有費心閱讀 GVT(1985)——表示不相信任何“訓練有素的統計學家”會在這種情況下取平均值。
但這正是 GVT (1985) 在他們的表 4 中所做的。參見他們的表 4,第 2-4 列和第 5-6 列,底行。他們發現 26 名球員的平均水平,
$ \hat{p}(H|1M) \approx 0.47 $ 和 $ \hat{p}(H|1H) \approx 0.48 $ ,
$ \hat{p}(H|2M) \approx 0.47 $ 和 $ \hat{p}(H|2H) \approx 0.49 $ ,
$ \hat{p}(H|3M) \approx 0.45 $ 和 $ \hat{p}(H|3H) \approx 0.49 $ .
實際上,對於每個 $ k=1,2,3 $ , 平均 $ \hat{p}(H|kH)>\hat{p}(H|kM) $ . 但 GVT 的論點似乎是這些在統計上並不顯著,因此這些都不是支持熱手的證據。好,可以。
但是,如果我們不取平均值(一些人認為這是非常愚蠢的舉動),而是重做他們的分析並彙總 26 名球員(每人 100 次射門,有一些例外),我們會得到下表的加權平均值。
Any 1175/2515 = 0.4672 3 misses in a row 161/400 = 0.4025 3 hits in a row 179/313 = 0.5719 2 misses in a row 315/719 = 0.4381 2 hits in a row 316/581 = 0.5439 1 miss in a row 592/1317 = 0.4495 1 hit in a row 581/1150 = 0.5052
例如,該表顯示,26 名球員總共投籃 2,515 次,其中 1,175 次或 46.72% 命中。
在 400 次球員連續 3 次失球的情況下,161 次或 40.25% 的球員立即被擊中。在球員連續命中 3 次的 313 次事件中,有 179 次或 57.19% 的球員立即被擊中。
上述加權平均值似乎是支持熱手的有力證據。
請記住,投籃實驗的設置是為了讓每個球員在確定他/她可以投中大約 50% 的投籃的地方投籃。
(注:“很奇怪”,在表 1 中,對於與 76 人隊的比賽投籃非常相似的分析,GVT 顯示的是加權平均值。那麼為什麼他們對錶 4 不做同樣的事情?我的猜測是他們當然確實計算了表 4 的加權平均值——我在上面給出的數字,不喜歡他們所看到的,並選擇壓制它們。不幸的是,這種行為在學術界是正常的。)
範例:假設我們有序列 $ HHHTTTHHHHH…H $ (只有 #4-#6 翻轉是反面,其餘 97 次翻轉都是正面)。然後 $ \hat{p}(H|3T)=1/1=1 $ 因為只有 1 個三尾的連勝,並且在連勝之後立即翻轉是正面。
和 $ \hat{p}(H|3H)=91/92 \approx 0.989 $ 因為有 92 次三頭正面,而這 92 次正面中有 91 次,緊隨其後的翻轉是正面。
PS GVT (1985) 的表 4 包含幾個錯誤。我發現至少有兩個舍入錯誤。同樣對於玩家 10,第 4 列和第 6 列中的括號值加起來不比第 5 列中的值小一(與底部的註釋相反)。我聯繫了 Gilovich(Tversky 已經死了,Vallone 我不確定),但不幸的是他不再有原來的命中和失誤序列。表 4 就是我們所擁有的。