機器學習
如何規範機器學習的技術指標?
我為 100 家不同的公司使用了大約 130 個技術指標。每家公司的股價在不同的範圍內波動,請參閱富時 100 指數。此外,每個技術指標也在不同的範圍內移動,即一些在 0-1 之間移動,另一些在 0-100 之間移動,而另一些則隨價格波動。這是我正在使用的列表http://ta-lib.org/function.html
我想將其輸入到機器學習算法中,在該算法中我預測第二天股價的相對價格變動。我使用邏輯損失來優化利潤和兩個正則化項,一個在公司之間,另一個在時間段之間。這暫時不重要。
相反,我要問的是如何規範化輸入數據?我已經嘗試過 zscore、變化率、絕對差異以及這些的各種組合,但我不確定哪種方法是正確的。另外,我假設首先我需要計算指標,然後規範化該數據。或者這些指標對標準化數據有意義嗎?
沒有先驗的正確方法。嘗試所有有意義的方法,並從樣本 PnL 和風險(或一些類似的決策規則)中選擇最大化效用函式的方法。
規模和範圍是您最大的問題。如果一個輸入的值在 2300-3500 之間,另一個在 0 到 18 之間,那麼第一個輸入的大規模將淹沒另一個輸入,並為您的學習算法提供更多資訊。因此,正規化為範圍
$$ 0,1 $$或均值零標準化-就像您已經完成的那樣。但是,請注意均值零標準化,因為均值僅適用於偏零正態分佈,而不適用於對數正態分佈(右尾)偏態分佈。您可以輸入傾斜特徵值的等級,但已知等級是矩形分佈的,因此將等級轉換為百分位數,然後轉換為 van der Waerden 分數(這是沒有偏度的標準正態分佈)。