時間序列

z 分數與股票價格的對數標準化,用於計算相關性;使用哪個(在 ML 分群、距離測量中)?

  • March 31, 2017

我需要比較(獲得)不同金融工具(股票)之間的相關性。

問題是不同的股票會有不同的價格尺度。

我正在考慮對我的價格時間序列向量使用z 分數標準化 $ \boldsymbol{x_{j}} $ :

$$ \boldsymbol{x_{j}’} = \frac{\boldsymbol{x_{j}} - \bar{\boldsymbol{x_{j}}}}{\sigma} $$ 現在我閱讀的一篇論文使用自然對數標準化來實現相同的目標:

$$ \boldsymbol{x_{j}’’} = ln(\boldsymbol{x_{j}}) $$ 一種方法正確,另一種方法不正確;兩者都是可用的,如果是的話,哪個是首選,有什麼細微差別?

基於答案和評論的附加資訊:

讓我添加一些上下文(更多是統計/機器學習的角度)。我想對不同的股票市場進行分類。標準化是用於預測或分群的數據預處理的“標準”部分(這是一個分群問題)。我猜如果我使用預期回報和波動性以及歐幾里德距離等指標作為衡量標準,那將是有意義的。但是,我選擇使用相關性作為我的距離度量。這就是問題所在。我不明白為什麼,統計上我應該使用回報。我可以看到 z-score 是如何被納入相關性(而不是共變異數)的,雖然不是 100%,不太確定對數轉換。因為我在做相關性,所以我預設測量線性關係;我認為 X 和 Y 或 ln(X) 和 ln(Y) 之間的線性關係沒有區別,它只是確保比例相同。但話說回來,尺度在這裡並不重要,因為我們在相關方程的分母中“標準化”。這裡是連結到使用 ln(price) 的論文。

首先讓我說,兩隻股票之間的相關性幾乎總是在回報空間中得到體現。首先,您將價格序列轉換為回報序列並獲取相關性。

現在讓我來回答你關於一般相關性的問題。注意相關性公式:

$$ \rho_{XY} = \frac{E[(X-\mu_X)(Y-\mu_Y)]}{\sigma_X\sigma_Y} $$ 由此,您可以看到相關性是一個標準化值,對於輸入的縮放/移動是不變的。所以使用你的“z-score標準化”方法,實際上會給你完全相同的相關性! 對數標準化將測量對數轉換變數之間的線性關係。如果您認為兩者之間應該存線上性關係,您只想這樣做 $ \textrm{ln}(X) $ 和 $ \textrm{ln}(Y) $ .

引用自:https://quant.stackexchange.com/questions/33364