選擇弱學習者

December 8, 2013

我想將不同分類器的不同錯誤率與弱學習器的錯誤率（比隨機猜測好）進行比較。所以，我的問題是，對於一個簡單、易於處理的弱學習器有哪些選擇？或者，我是否錯誤地理解了這個概念，弱學習者只是我選擇的任何基準（例如，線性回歸）？
如果這個問題屬於不同的 stackexchange，請告訴我！

分類器的弱點可能有多種原因，主要取決於數據的特徵。例如，如果數據不是線性可分的，那麼線性回歸將很弱（預測類別和真實類別標籤之間的相關性較差）。但是，如果數據是線性可分的，那麼其他分類器的工作效果可能不如線性回歸。如果您使用集成方法（分類器委員會），您可以比較不同分類器的結果。你沒有提到任何關於提升的事情，這是弱學習器應用程序的基礎。無需贅述，您可以從最基本的分類器開始，例如 k 最近鄰 (kNN)、樸素貝氏分類器 (NBC)、學習向量量化 (LVQ)、線性判別分析 (LDA)，然後是線性回歸。如果數據偏離常態，那麼LDA可能會因為使用共變異數矩陣而崩潰，如果存在非線性可分數據，回歸可能會有更大的誤差。當然，隨著您增加分類器的複雜性，例如使用支持向量機、隨機森林、人工神經網路，前面提到的分類器（kNN、NBC、LDA、LREG）可能無法正常工作。主要問題是，只要你提到“弱點”，boosting 的理論就涵蓋了你所做的一切，boosting 涉及更複雜的方法來讓弱學習者變得更強。因此，為了追求你想做的事情，你可能會被“困”在助推理論中，並被迫只考慮助推問題——它有自己獨特的假設。確保您確實必須使用弱分類器，而不是通過集成來比較分類器。

引用自：https://quant.stackexchange.com/questions/9637

選擇弱學習者

相關問答

隨機森林在種群定量分析中的應用

固定收益與股票中的 ML/AI

QF 領域最近有哪些有趣的與機器學習相關的發展？

AFML（由 Lopez De Prado 撰寫）與 Trevor Hastie 的 ESL

如何將機器學習算法應用於股票市場？

最佳執行和強化學習