多項式 logit 和條件 logit 之間的區別

September 14, 2021

我正在嘗試決定是執行多項式 logit 還是條件式 logit (McFadden, 1973)。我有來自基於選擇的聯合研究的數據，其中每個受訪者的選擇是在一對具有不同特徵（包括價格）的產品之間進行的。如果重要的話，每個特徵都是一個連續變數。我想估計為每個特徵支付的邊際意願。兩種模型有何不同的典型解釋如下：
多項式 logit 將選擇建模為選擇者特徵的函式，而條件 logit 將選擇建模為選擇特徵的函式。
按照這個邏輯，考慮到我試圖估計為每個特徵支付的邊際意願，我會傾向於使用有條件的 logit。另一方面，我對此估計的值完全取決於受訪者的偏好，所以你可以說我真的在估計與受訪者的偏好有關的東西，而不是與選擇特徵有關的任何東西。
有沒有人對模型和/或反射之間的差異有更清晰的理解，在這種情況下哪個更合適？

確定至少有一個數據集的負責人會更好，但從描述來看，條件logit是要走的路（儘管在實踐中，應該使用隨機係數logit來避免IIA - 無關替代方案的獨立性） .
一般形式：將這兩種模型都視為某些一般離散選擇模型的特例。我已經習慣了約定那個索引 $ i $ 適用於個人和 $ j $ 是替代品。
$$ \pi_i(Y = j|\mathbf{z})= \frac{\exp{(\boldsymbol{\beta}^\top}\mathbf{z}_j)}{\exp{(\boldsymbol{\beta}^\top}\mathbf{z}_1) : + :… +: \exp{(\boldsymbol{\beta}^\top}\mathbf{z}_J)} $$
請注意 $ \mathbf{z}_j $ 和 $ \boldsymbol{\beta} $ 是長度向量 $ J \times K $ ，在哪裡 $ K-1 $ 是特徵的數量
$$ for details, see Agresti(2002:300) $$. 重要的是要理解，對於這個softmax函式的分母中的每個備選方案，我們都有一個術語。我們可以通過將這些向量中的不同元素設置為零來導出mlogit和clogit。因此我們得到不同的模型。
對於簡單的mlogit $ J = 3 $ 選擇（備選方案）和一個單獨的特徵（選擇者的屬性），我們可以找到選擇每個備選方案的機率。例如，某個人選擇第二個選項的機率為：
$$ P_{i2}(j=2|x_i)= \frac{\exp(\alpha_2 + \beta_2 x_i)} {1 + \exp(\alpha_2 + \beta_2 x_i) + \exp(\alpha_3 + \beta_3 x_i)} $$
需要注意的是，有一個變數的函式 $ x_i $ （同一個人的備選方案之間不會改變）。另一點是所有備選方案的係數都不同。最後，我們可以使用截取 $ \alpha_j $ 在 mlogit 中，因為它們是不同的並且可以被辨識（如果我們設置 $ \alpha_1 $ 和 $ \beta_1 $ 到 $ 0 $ - 這就是為什麼分母中有 1 的原因）。
對於clogit，情況完全不同，因為對於每個備選方案，我們對同一特徵有不同的值。因此，具有 3 個備選方案和一個特徵的模型採用以下形式（即個體機率 $ i $ 選擇第二種選擇）：
$$ P_{i2}(j=2|\mathbf{x}_j)= \frac{\exp(\beta x_2)} {\exp(\beta x_1) + \exp(\beta x_2) + \exp(\beta x_3)} $$
這裡我們處理三個變數的函式（ $ \mathbf{x}_j $ ）。只要這些值不同，只適合一個就足夠了 $ \beta $ , 這對於所有備選方案都是相同的。因此，我們不需要一個基本的替代方案（分母沒有統一性）。最後，我們無法辨識這種模型中的任何截距，因為任何 $ \alpha $ 只會在 softmax 比率中消失（“感謝”指數屬性）。
哪些事情對這兩種模型也很重要？擬合這兩個模型的常用方法是最大概似，儘管在條件 logit 中，這種可能性也是有條件的（它只是意味著我們強加了一個條件，即每個人應該選擇一個且只有一個替代方案）。
在實踐中如何理解，應用哪種模型？好吧，如果您將一個模型的數據放在另一個模型命令中，您將不會得到結果（統計軟體會抱怨數據沒有可變性）。
如果您有長格式的數據，它可能看起來像這樣：
Y   c_logit_feature    m_logit_attrib
--------------------------------------
0           3                 10
1           5                 10
0           7                 10
--------------------------------------
1           3                 12
0           5                 12
0           7                 12
--------------------------------------
...
--------------------------------------
0           3                 18
1           5                 18
0           7                 18
--------------------------------------
通常的包將能夠從這樣的設置中適應clogit（使用最後一列作為分組指標）。但是mlogit通常想要不同的形式，這個事實（根據我的經驗）讓大多數使用者感到困惑。如果我們將三個備選方案標記為“a”、“b”和“c”，則從上表導出的 mlogit 設置將是：
label  m_logit_ready
--------------------
"b"         10
"a"         12
...   
"b"         18
現代統計軟體包（如 R 或 Stata）能夠使用不同的格式，但總體構想保持不變。
希望有幫助。

引用自：https://economics.stackexchange.com/questions/24010

多項式 logit 和條件 logit 之間的區別

相關問答

為什麼 Stata 省略了我的一些變數並且 mfx 不起作用？

具有多個指標變數的 OLS

治療對對照組有溢出效應時的綜合控制方法

比較一個國家內不同地區的收入

一個職位和兩個治療變數的差異差異

交叉驗證作為驗證固定效應的一種手段？