在基於百分比的數據上找到截距並使用虛擬變數

November 4, 2015

如何找到百分比數據的截距？我的數據有分數百分比（我已轉換為數字，其中 $ A^=8, A=7,B=6…U=0 $ ）按種族和其他指標，我想使用虛擬變數進行測試。例如90.3%的中國學生獲得了 $ A^-C $ 年級，混血學生得了 87.3% 等等。我如何解釋這個以獲得攔截？我選擇了中位數 32.5，因為成績是 5 $ A^* $ 到 $ C $ （之間 $ A^*(8\cdot5=40) $ 和 $ C( 5\cdot5=25) $ . 在這種情況下使用中位數是否明智？
我的方程式將是
$ y =b_0 +b_1 +b_2+b_3+b_4+b_5+b_6+u $
在哪裡 $ y $ 是年級， $ b_0 $ 是中位數（常數）， $ b_1 $ 是免費的校餐， $ b_2 $ 是中國人， $ b_3 $ 是黑色， $ b_4 $ 是亞洲人， $ b_5 $ 是男性， $ b_6 $ 是女性，並且 $ u $ 是誤差項。白色是預設設置。
因此，如果一個中國男學生沒有得到免費的校餐（貧困的代名詞） $ b_0 + b_2 + b_5 $ .
我的問題如上所述，我使用中位數是否有意義，其次，由於我已經知道中國學生的表現比其他人更好，我是否需要使用百分比差異或使用虛擬二進制變數。
我想簡單地找出貧困和種族對學生預期成績的影響。我無法訪問個人成績或收入等面板數據，因此我想使用免費的校餐。
再次感謝您的回答。
請看下圖。

正如 Jamzy 所指出的，針對您擁有的任何變數對成績進行 OLS 回歸。
$$ \text{grades} = \beta_0 + \beta_1 x_1 + \cdots + \beta_i \ \text{race} + \cdots $$ $$ \text{race} =\begin{array}{cc} \Bigg{ & \begin{array}{cc} 0 & mixed \ 1 & Chinese \ \end{array} \end{array} $$ 0 和 1 反之亦然。 $ \beta_0 $ 將是您正在尋找的攔截。如果結果為負，請嘗試對雙方進行對數，看看線性回歸是否仍然適合您。

這最終有點混亂。應該使用 probit 或 logit link執行GLM 。這樣做的原因是回歸是有界的，我們不希望您的估計忽略邊界並建議 130% 或 -20% 的等級。此類估計可以並且很可能會發生在 OLS 中。請參閱 Stata Journal 關於此主題的文章。，或在這裡。
通常，這些機率/logit 回歸用於二進制數據，由 0 和 1 組成。但是，它們在這裡會很好地發揮作用，其中等級是正確回答任何一個問題的機率。
截距在這些估計中有一個類似物，仍然。它是一個常數項，將根據您選擇的機率或對數進行轉換。我相信還有其他可用的連結功能，但它們在經濟學文獻中並不是特別常見。
鑑於： $ Y=\beta_0+x’\beta_{1..n}+\epsilon $ 你的調查目標在哪裡
$ 0<Y<1 $ , $ Y=grade,x=[gender,race,…] $
假設 $ \epsilon $ 是後勤分佈的，Logit： $ \frac {1}{1+e^{-\beta_0}} $
假設 $ \epsilon $ 是正態分佈的，Probit： $ \Phi(\beta_0) $
當然，您的發行版可能不是這些，但這些被認為是標準的。
OLS 在估計此類數據的截距時也是如此，但它可能暗示不可能的等級（例如，-0.2 或 1.3 作為截距）。這是不可能的原因是因為一個人無法獲得 -0.2 或 -1.3 作為百分等級。

引用自：https://economics.stackexchange.com/questions/8992

在基於百分比的數據上找到截距並使用虛擬變數

相關問答

當我結合 3 個國家的數據集時，我應該包括國家虛擬變數嗎？

計量經濟學：省略重要變數

研究美國和瑞典的增長，在回歸中我應該注意哪些變數？

公司如何為自己的目的設置效用函式？

效用函式的凹度有什麼影響嗎？

使用需求系統估計有什麼優勢？這與產品的個人需求估計有何不同？