機器學習
哪個機器學習模型依賴於正態假設?
在機器學習項目中,當目標變數出現偏態時,我們需要使用 box-cox 變換將其變為正態分佈。
- 但是為什麼我們需要這樣做呢?我的意思是,除了線性回歸之外,哪個模型假設目標變數應該屬於正態分佈?
- 如果我們使用對數據沒有任何假設的隨機森林,我們是否必須轉換數據?
謝謝
數據預處理通常是機器學習算法中非常重要的(如果不是最重要的)步驟。決策樹通常是一個例外,它們無需任何預處理即可正常工作。但是,如果您可以確定一些可能提高決策檢測質量的過程,它們可能會更好地工作。
作為其他機器學習模型的範例:線性判別分析或二次判別分析都是根據分佈為多元正態的假設明確計算的模型。
然而,這些模型所做的只是創建一個“線性”決策邊界或一個“二次”決策邊界來分隔類別(在分類問題中)
當數據不一定是正態分佈時,這通常會產生良好的結果;所以我的觀點是,僅僅因為模型假設一件事不一定是正確的,並不意味著它仍然不是產生準確結果的有效方法。
當然,它也可能慘敗——這就是機器學習的藝術。