信用評分模型IV最大值
我正在製作一個信用評分模型,我得到一個變數的資訊值 (IV) 大於 1,這可能嗎?
$$ WoE_i = \log \left( \dfrac{\dfrac{g_i}{g}}{\dfrac{b_i}{b}} \right) $$ 在哪裡 $ g_i $ 表示類別中的商品數量(無預設) $ i $ 變數的 $ x_i $ , $ b_i $ 表示類別中的不良品數(預設) $ i $ 變數的 $ x_i $ , $ g $ 表示整個數據集中的商品數量(無預設), $ b $ 表示整個數據集中壞的數量(預設), $ N(x) $ 是變數中的水平數 $ x $ ,即類別數 $$ IV = \sum_{i=1}^{N(x)}\left( \dfrac{g_i}{g} - \dfrac{b_i}{b} \right) \cdot WoE_i $$
另外,什麼是模型的完美契合?
通過完美匹配,我知道 x 中只有兩個類別:第一個包括所有商品,第二個包括所有壞品。在那種情況下,當計算 $ WoE_1 $ 我得到0 $ log $ 分母,因為 $ b_1 = 0 $ . 計算時 $ WoE_2 $ 我得到0 $ log $ 分子,因為 $ g_2 = 0 $ . 那有意義嗎?
IV 大於 1 是可能的,並且非常常見。假設您使用的是自然對數?您可以通過使用兩個類別來推斷限制。說模型/特徵可以完美區分好壞,讓 $ G_1, B_1, G_2, B_2 $ 是商品和壞品在這兩類中的比例。然後讓 $ G_1 \to 1, B_1 \to 0, G_2 \to 0, B_2 \to 1 $ . 所以我們假設一個大池,模型完美地分離了商品/壞品。然後很容易檢查 IV 是否等於:
$ \ln \left( \frac{G_1}{B_1}\right) -\ln \left( \frac{G_2}{B_2}\right) $
而第二個前面的減號意味著你可以反轉第二個比率,因此它是一個無窮大的數量的對數的 2 倍,所以你可以得到無窮大。但在實踐中,大多數時候你應該得到小於 10 的 IV。