變數裝箱是一件好事嗎?
假設您有一個邏輯回歸模型。有些因素本質上是分類的,但有些是連續變數。在什麼情況下應該將連續變數分類?
例如,邏輯回歸廣泛用於零售信用建模,年齡是一個解釋變數。什麼時候對年齡進行分類(例如,2-3、4-10、11+)是明智的,什麼時候應該將其保留為連續變數?
此處各種腳註和參考文獻中指出的問題似乎並未解決此問題。在許多情況下,詳細的智能分箱不僅適用,而且可以為模型增加價值。
讓我們將其分解為基礎知識,即在數字世界中,每件事都是分類的。我們從不將 AGE 測量到秒、分、日、週甚至月。為什麼不?因為我們假設在這些分鐘間隔內響應變數是相同的。這與假設 25 至 27 歲之間的響應變數相同有什麼不同?有線性關係嗎?
這不只是試圖在數據中估算出比現有更多的數據嗎?
確實,通過離散化數據,我們增加了可用的自由度,但前提是我們假設每個區間都由一個單獨的變數定義並且具有大型數據集(成千上萬的觀察不僅很常見,而且在許多數據集)。我認為這裡的許多評論的問題來自樣本量較小的領域、生物醫學、社會科學……在行銷、金融和其他消費領域,數據多得無法動搖。
最後,自 1960 年代 Fair,Isaac 首次開始建構記分卡以來,分箱已成為消費行業公認且經過驗證的做法。今天,FICO 仍然對幾乎所有的模型使用複雜的分箱技術。目前頂級數據探勘工具之一,來自 Salford 的 TreeNet,本質上是基於分箱技術。
因此,任何認為分箱不是最佳實踐的潛在變革技術的人都不會落後於技術曲線,遠遠落後。
根據 Frank Harrell關於資訊過敏的useR2010 主題演講:從不。
*編輯:*這裡有一長串不應該對連續變數進行分類的原因 (這是同一件事,但用更多的統計術語表示)。為了完整起見,這裡是 Andrew Gelman對這個問題的更多辯論。