機器學習

選擇弱學習者

  • December 8, 2013

我想將不同分類器的不同錯誤率與弱學習器的錯誤率(比隨機猜測好)進行比較。所以,我的問題是,對於一個簡單、易於處理的弱學習器有哪些選擇?或者,我是否錯誤地理解了這個概念,弱學習者只是我選擇的任何基準(例如,線性回歸)?

如果這個問題屬於不同的 stackexchange,請告訴我!

分類器的弱點可能有多種原因,主要取決於數據的特徵。例如,如果數據不是線性可分的,那麼線性回歸將很弱(預測類別和真實類別標籤之間的相關性較差)。但是,如果數據是線性可分的,那麼其他分類器的工作效果可能不如線性回歸。如果您使用集成方法(分類器委員會),您可以比較不同分類器的結果。你沒有提到任何關於提升的事情,這是弱學習器應用程序的基礎。無需贅述,您可以從最基本的分類器開始,例如 k 最近鄰 (kNN)、樸素貝氏分類器 (NBC)、學習向量量化 (LVQ)、線性判別分析 (LDA),然後是線性回歸。如果數據偏離常態,那麼LDA可能會因為使用共變異數矩陣而崩潰,如果存在非線性可分數據,回歸可能會有更大的誤差。當然,隨著您增加分類器的複雜性,例如使用支持向量機、隨機森林、人工神經網路,前面提到的分類器(kNN、NBC、LDA、LREG)可能無法正常工作。主要問題是,只要你提到“弱點”,boosting 的理論就涵蓋了你所做的一切,boosting 涉及更複雜的方法來讓弱學習者變得更強。因此,為了追求你想做的事情,你可能會被“困”在助推理論中,並被迫只考慮助推問題——它有自己獨特的假設。確保您確實必須使用弱分類器,而不是通過集成來比較分類器。

引用自:https://quant.stackexchange.com/questions/9637