在基於百分比的數據上找到截距並使用虛擬變數
如何找到百分比數據的截距?我的數據有分數百分比(我已轉換為數字,其中 $ A^=8, A=7,B=6…U=0 $ )按種族和其他指標,我想使用虛擬變數進行測試。例如90.3%的中國學生獲得了 $ A^-C $ 年級,混血學生得了 87.3% 等等。我如何解釋這個以獲得攔截?我選擇了中位數 32.5,因為成績是 5 $ A^* $ 到 $ C $ (之間 $ A^*(8\cdot5=40) $ 和 $ C( 5\cdot5=25) $ . 在這種情況下使用中位數是否明智?
我的方程式將是
$ y =b_0 +b_1 +b_2+b_3+b_4+b_5+b_6+u $
在哪裡 $ y $ 是年級, $ b_0 $ 是中位數(常數), $ b_1 $ 是免費的校餐, $ b_2 $ 是中國人, $ b_3 $ 是黑色, $ b_4 $ 是亞洲人, $ b_5 $ 是男性, $ b_6 $ 是女性,並且 $ u $ 是誤差項。白色是預設設置。
因此,如果一個中國男學生沒有得到免費的校餐(貧困的代名詞) $ b_0 + b_2 + b_5 $ .
我的問題如上所述,我使用中位數是否有意義,其次,由於我已經知道中國學生的表現比其他人更好,我是否需要使用百分比差異或使用虛擬二進制變數。
我想簡單地找出貧困和種族對學生預期成績的影響。我無法訪問個人成績或收入等面板數據,因此我想使用免費的校餐。
再次感謝您的回答。
請看下圖。
正如 Jamzy 所指出的,針對您擁有的任何變數對成績進行 OLS 回歸。
$$ \text{grades} = \beta_0 + \beta_1 x_1 + \cdots + \beta_i \ \text{race} + \cdots $$ $$ \text{race} =\begin{array}{cc} \Bigg{ & \begin{array}{cc} 0 & mixed \ 1 & Chinese \ \end{array} \end{array} $$ 0 和 1 反之亦然。 $ \beta_0 $ 將是您正在尋找的攔截。如果結果為負,請嘗試對雙方進行對數,看看線性回歸是否仍然適合您。
這最終有點混亂。應該使用 probit 或 logit link執行GLM 。這樣做的原因是回歸是有界的,我們不希望您的估計忽略邊界並建議 130% 或 -20% 的等級。此類估計可以並且很可能會發生在 OLS 中。請參閱 Stata Journal 關於此主題的文章。,或在這裡。
通常,這些機率/logit 回歸用於二進制數據,由 0 和 1 組成。但是,它們在這裡會很好地發揮作用,其中等級是正確回答任何一個問題的機率。
截距在這些估計中有一個類似物,仍然。它是一個常數項,將根據您選擇的機率或對數進行轉換。我相信還有其他可用的連結功能,但它們在經濟學文獻中並不是特別常見。
鑑於: $ Y=\beta_0+x’\beta_{1..n}+\epsilon $ 你的調查目標在哪裡
$ 0<Y<1 $ , $ Y=grade,x=[gender,race,…] $
假設 $ \epsilon $ 是後勤分佈的,Logit: $ \frac {1}{1+e^{-\beta_0}} $
假設 $ \epsilon $ 是正態分佈的,Probit: $ \Phi(\beta_0) $
當然,您的發行版可能不是這些,但這些被認為是標準的。
OLS 在估計此類數據的截距時也是如此,但它可能暗示不可能的等級(例如,-0.2 或 1.3 作為截距)。這是不可能的原因是因為一個人無法獲得 -0.2 或 -1.3 作為百分等級。