多項式 logit 和條件 logit 之間的區別
我正在嘗試決定是執行多項式 logit 還是條件式 logit (McFadden, 1973)。我有來自基於選擇的聯合研究的數據,其中每個受訪者的選擇是在一對具有不同特徵(包括價格)的產品之間進行的。如果重要的話,每個特徵都是一個連續變數。我想估計為每個特徵支付的邊際意願。兩種模型有何不同的典型解釋如下:
多項式 logit 將選擇建模為選擇者特徵的函式,而條件 logit 將選擇建模為選擇特徵的函式。
按照這個邏輯,考慮到我試圖估計為每個特徵支付的邊際意願,我會傾向於使用有條件的 logit。另一方面,我對此估計的值完全取決於受訪者的偏好,所以你可以說我真的在估計與受訪者的偏好有關的東西,而不是與選擇特徵有關的任何東西。
有沒有人對模型和/或反射之間的差異有更清晰的理解,在這種情況下哪個更合適?
確定至少有一個數據集的負責人會更好,但從描述來看,條件logit是要走的路(儘管在實踐中,應該使用隨機係數logit來避免IIA - 無關替代方案的獨立性) .
一般形式:將這兩種模型都視為某些一般離散選擇模型的特例。我已經習慣了約定那個索引 $ i $ 適用於個人和 $ j $ 是替代品。
$$ \pi_i(Y = j|\mathbf{z})= \frac{\exp{(\boldsymbol{\beta}^\top}\mathbf{z}_j)}{\exp{(\boldsymbol{\beta}^\top}\mathbf{z}_1) : + :… +: \exp{(\boldsymbol{\beta}^\top}\mathbf{z}_J)} $$
請注意 $ \mathbf{z}_j $ 和 $ \boldsymbol{\beta} $ 是長度向量 $ J \times K $ , 在哪裡 $ K-1 $ 是特徵的數量
$$ for details, see Agresti(2002:300) $$. 重要的是要理解,對於這個softmax函式的分母中的每個備選方案,我們都有一個術語。 我們可以通過將這些向量中的不同元素設置為零來導出mlogit和clogit。因此我們得到不同的模型。
對於簡單的mlogit $ J = 3 $ 選擇(備選方案)和一個單獨的特徵(選擇者的屬性),我們可以找到選擇每個備選方案的機率。例如,某個人選擇第二個選項的機率為:
$$ P_{i2}(j=2|x_i)= \frac{\exp(\alpha_2 + \beta_2 x_i)} {1 + \exp(\alpha_2 + \beta_2 x_i) + \exp(\alpha_3 + \beta_3 x_i)} $$
需要注意的是,有一個變數的函式 $ x_i $ (同一個人的備選方案之間不會改變)。另一點是所有備選方案的係數都不同。最後,我們可以使用截取 $ \alpha_j $ 在 mlogit 中,因為它們是不同的並且可以被辨識(如果我們設置 $ \alpha_1 $ 和 $ \beta_1 $ 到 $ 0 $ - 這就是為什麼分母中有 1 的原因)。
對於clogit,情況完全不同,因為對於每個備選方案,我們對同一特徵有不同的值。因此,具有 3 個備選方案和一個特徵的模型採用以下形式(即個體機率 $ i $ 選擇第二種選擇):
$$ P_{i2}(j=2|\mathbf{x}_j)= \frac{\exp(\beta x_2)} {\exp(\beta x_1) + \exp(\beta x_2) + \exp(\beta x_3)} $$
這裡我們處理三個變數的函式( $ \mathbf{x}_j $ )。只要這些值不同,只適合一個就足夠了 $ \beta $ , 這對於所有備選方案都是相同的。因此,我們不需要一個基本的替代方案(分母沒有統一性)。最後,我們無法辨識這種模型中的任何截距,因為任何 $ \alpha $ 只會在 softmax 比率中消失(“感謝”指數屬性)。
哪些事情對這兩種模型也很重要?擬合這兩個模型的常用方法是最大概似,儘管在條件 logit 中,這種可能性也是有條件的(它只是意味著我們強加了一個條件,即每個人應該選擇一個且只有一個替代方案)。
在實踐中如何理解,應用哪種模型?好吧,如果您將一個模型的數據放在另一個模型命令中,您將不會得到結果(統計軟體會抱怨數據沒有可變性)。
如果您有長格式的數據,它可能看起來像這樣:
Y c_logit_feature m_logit_attrib -------------------------------------- 0 3 10 1 5 10 0 7 10 -------------------------------------- 1 3 12 0 5 12 0 7 12 -------------------------------------- ... -------------------------------------- 0 3 18 1 5 18 0 7 18 --------------------------------------
通常的包將能夠從這樣的設置中適應clogit(使用最後一列作為分組指標)。但是mlogit通常想要不同的形式,這個事實(根據我的經驗)讓大多數使用者感到困惑。如果我們將三個備選方案標記為“a”、“b”和“c”,則從上表導出的 mlogit 設置將是:
label m_logit_ready -------------------- "b" 10 "a" 12 ... "b" 18
現代統計軟體包(如 R 或 Stata)能夠使用不同的格式,但總體構想保持不變。
希望有幫助。