如何規範機器學習的技術指標？

April 2, 2019

我為 100 家不同的公司使用了大約 130 個技術指標。每家公司的股價在不同的範圍內波動，請參閱富時 100 指數。此外，每個技術指標也在不同的範圍內移動，即一些在 0-1 之間移動，另一些在 0-100 之間移動，而另一些則隨價格波動。這是我正在使用的列表http://ta-lib.org/function.html
我想將其輸入到機器學習算法中，在該算法中我預測第二天股價的相對價格變動。我使用邏輯損失來優化利潤和兩個正則化項，一個在公司之間，另一個在時間段之間。這暫時不重要。
相反，我要問的是如何規範化輸入數據？我已經嘗試過 zscore、變化率、絕對差異以及這些的各種組合，但我不確定哪種方法是正確的。另外，我假設首先我需要計算指標，然後規範化該數據。或者這些指標對標準化數據有意義嗎？

沒有先驗的正確方法。嘗試所有有意義的方法，並從樣本 PnL 和風險（或一些類似的決策規則）中選擇最大化效用函式的方法。

規模和範圍是您最大的問題。如果一個輸入的值在 2300-3500 之間，另一個在 0 到 18 之間，那麼第一個輸入的大規模將淹沒另一個輸入，並為您的學習算法提供更多資訊。因此，正規化為範圍
$$ 0,1 $$或均值零標準化-就像您已經完成的那樣。但是，請注意均值零標準化，因為均值僅適用於偏零正態分佈，而不適用於對數正態分佈（右尾）偏態分佈。您可以輸入傾斜特徵值的等級，但已知等級是矩形分佈的，因此將等級轉換為百分位數，然後轉換為 van der Waerden 分數（這是沒有偏度的標準正態分佈）。

引用自：https://quant.stackexchange.com/questions/7921

相關問答

如何將技術指標納入神經網路？

September 27, 2011

固定收益與股票中的 ML/AI

August 9, 2022

QF 領域最近有哪些有趣的與機器學習相關的發展？

July 5, 2022

AFML（由 Lopez De Prado 撰寫）與 Trevor Hastie 的 ESL

June 6, 2022

如何將機器學習算法應用於股票市場？

April 24, 2022

最佳執行和強化學習

April 24, 2022