勞動力市場歧視的實地實驗:隨機分配群體的規模重要嗎?
在關於種族歧視的傳統實地實驗中,將兩份相同的簡歷發送給隨機選擇的公司,僅在姓名或證件照片上有所不同。然後對每份簡歷收到的面試邀請數量進行統計測試,以確定簡歷之間收到的面試邀請數量的任何差異是否適用於總體。
我很好奇,如果每份簡歷發送給不同數量的公司(例如,一份發送給 300 家公司,另一份發送給 310 家公司),結果是否顯示在一個公司收到的面試邀請數量存在統計學上的顯著差異相比較其他的簡歷將作廢。我的直覺是,可能存在引入偏見的趨勢,因為分配給更多公司的簡歷有更高的被選中機會。希望對這是否準確發表評論。
不,這不應該是一個大問題。我們將非常仔細地考慮不同的樣本量。請允許我繼續您的範例:
假設“Resume A”是治療履歷,“Resume B”是對照履歷,其中治療具有較弱的種族名稱(Jamal、Beyonce),而對照履歷包含英語化名稱(James、Sophia)。在這裡也應該注意性別。
然後我們比較兩份簡歷的平均接受率。認為 $ N_a = 300 $ 和 $ N_b = 310 $ . 接受的簡歷有: $ Accepted_a = 30 $ 和 $ Accepted_b = 62 $ . 對於捷徑,平均接受率是 $ r_a = 30/300 = 0.1 $ 和 $ r_b = 62/310 = 0.2 $ . 請注意,平均接受率使每個組正常化,因此這裡部分考慮了大小。
那麼變異數是:
$ \sigma_a^2 = (1-r_a)*r_a = 0.090 $
$ \sigma_b^2 = (1-r_b)*r_b = 0.160 $
更重要的是,每個分佈的均值的變異數是 $ \sigma_a^2/N_a $ 和 $ \sigma_b^2/N_b $ , 分別。我們通過簡單的均值比較檢驗來比較兩個分佈的均值。請注意,此步驟明確使用樣本量來解釋兩個分佈之間的預期變化。
所以我們現在比較兩者是否有區別,在原假設下沒有區別。(在統計學中,您幾乎總是假設沒有差異/沒有相關性/沒有影響作為基線。)
$ t=\frac{r_a-r_b}{\sqrt{\sigma_a^2/N_a+\sigma_b^2/N_b}} = 3.572 $
推理可以非常明確地闡述如下:
- 兩個樣本之間的差值與 0 相差 3.572 個標準差。
- 根據我們上面所做的假設,如果我們重複該過程,這似乎不太可能偶然發生(在 t 表上查找這一點,因為單尾檢驗的 p 值小於 0.001)。貝氏主義者會指出人們可能已經做出了其他一些無聲的假設,因此語言在這一步尤為重要,但這通常會通過直覺。
- 因此,我拒絕這兩個樣本來自同一分佈的想法。這似乎不可信。
- 因此,我只能得出結論,這兩個樣本之間存在差異。似乎人們確實更接受英國化的名字而不是民族的名字。
他們通常衡量的是獲得面試的機率,而不是面試的次數,以便將申請的數量標準化。例如,考慮Emily 和 Greg 是否比 Lakisha 和 Jamal 更適合就業?勞動力市場歧視的實地實驗(AER 2004,被引用約 5000 次)。
我們通過向波士頓和芝加哥報紙上的招聘廣告發送虛構的簡歷來研究勞動力市場中的種族。為了操縱感知種族,簡歷被隨機分配非裔美國人或白人聽起來的名字。白人名字收到的面試回電要多 50%。與非裔美國人的名字相比,白人名字的回調對恢復質量的反應也更靈敏。種族差距在職業、行業和雇主規模方面是一致的。我們還發現幾乎沒有證據表明雇主從名字中推斷出社會階層。種族差異化待遇在美國勞動力市場似乎仍然很突出
該論文使用“回調的可能性”和“回調率”作為感興趣的主要變數,這些度量使用由應用程序標準化的回調,這意味著它們對應用程序的數量不敏感(至少在級別上,但應用程序的數量會影響標準誤差)。