機器學習
您對 WEKA KnowledgeFlow、Rapidminer 和其他用於機器學習的快速開發環境有何看法?
- 哪個擴展性最強?
- 就最小的學習曲線而言,哪一個是最有效的,同時提供了有意義的靈活性和性能?
- 這些工具中的任何一個在定制方面真的受到限制並且值得避免嗎?
首先,它可能很大程度上取決於您選擇的平台(例如 R、Python 或 Java)。一些最常見的:
Python
- 開箱即用:橙色
- 自定義:Scikit-learn和PyBrain
爪哇
- 開箱即用:RapidMiner和KNIME
- 自我定制傾向:Weka
R : R中的機器學習。
其次,在選擇是否使用開箱即用平台時,很大程度上取決於您的目的。
“快速”平台的主要優點是它們非常容易學習並且可以快速產生一些結果。主要缺點是並非所有內容都在這些平台中實現。由於努力使工具非常易於使用,因此留下了自定義。有時您可能想建構自己的系統,只使用機器學習作為組件,您可能會發現像 scikits-learn 這樣的工具更容易採用。
但是,我發現兩者都使用非常方便。使用“快速”生成整個想法並進行一些實驗和調整,例如調整參數和調整類別。然後,使用更加定制化的工具來實現整個系統。例如,我同時使用 RapidMiner 和 Scikits-learn。
說到學習曲線,RapidMiner 作為一種工具和 Python 作為一種語言很可能是最好的。
說到可擴展性,雖然對 R 不是很熟悉,但我覺得 R 和 Python 還是挺不錯的。
根據這個比較(查找 Martin 寫的文章)Rapidminer 在實現探勘算法方面更強大,並且可以更好地擴展大型數據集。
作為最初的 WEKA 使用者,我的印像是 Rapidminer 也比 WEKA 更易於使用。