選擇平滑參數的線上算法?
在高頻交易中的線上算法中,作者展示了用於均值、變異數和線性回歸的線上指數加權算法。
作者估計了他們的平滑參數 $ \alpha $ 樣本中,但聲明“另一種方法是線上估計最佳 alpha。”
如何線上估計平滑參數的範例是什麼?
首先,我不相信估計量的“最佳平滑”(如均值或變異數)和“回歸情況”是相同的。
現有估計量的平滑(如部落格文章中的均值或變異數)是一個單變數問題,其中回歸是一個多變數問題。在回歸情況下,您應該能夠在調整平滑時更改整個公式的係數,但在“簡單”平滑中,您不需要更改公式。
我將在這裡回答第一個案例。對於回歸案例,您應該看看ARIMAX 模型和卡爾曼濾波器,(根據我)在這裡很難將(1)獲得好的模型,(2)應用平滑的過程分成兩個過程。
一旦有了公式(比如均值公式),就已經很難獲得足夠的過濾視窗大小。說你觀察 $ X_1,X_2,\ldots,X_k,\ldots $ 有時 $ \tau_1,\tau_2,\ldots,\tau_k,\ldots $ . 你必須回到平均值的公式,它來自哪裡?
很容易看出,通常的均值是以下最小化問題的解:
$$ \min_m \mathbb{E}(m-X)^2. $$ 它最小化了觀察到的隨機變數和*“均值”之間的預期變異數。在簡單的假設下( $ X $ 是獨立同分佈) $ m $ 是經驗平均值,使用盡可能多的數據*。就平滑而言,這意味著您從一天開始以來獲取所有點(我使用您的盤中範例),並隨時間平均更多數據:
$$ m_\infty(X_k,k\leq K)=\frac{1}{K} \sum_{k\leq K} X_k. $$ 這個估計量的變異數與 $ \sqrt{\mathbb{V}(X)/K} $ .
為什麼你需要不同的東西?
如果你想拿更少的分數,例如一個大小的滑動視窗 $ W $ :
$$ m_W(X_k,k\leq K)=\frac{1}{W} \sum_{k= K-W+1}^K X_k, $$ 您將再次獲得無偏估計量,但變異數最大,因為您替換 $ \sqrt{\mathbb{V}(X)/K} $ , 在哪裡 $ K $ 隨時間趨於無窮大,由 $ \sqrt{\mathbb{V}(X)/W} $ , 那是恆定的。
如果你這樣做,那是因為你相信 $ X $ 不是 iid(獨立同分佈)。在這種情況下,您可以擁有 $ X $ 實際上是從一個隨機變數中得出的,直到時間 $ T $ ,然後它切換到另一個分佈。
這意味著您需要檢測到這種變化,或者至少對它不太敏感。如果您採用指數平均值,則屬於第二種情況:您不嘗試了解有關開關的任何資訊,只需執行一個公式,這樣一段時間後您就根本不考慮過去,並且您對開關的權重更大最近的過去,一個較舊的。
但你可以做得更好。並且有大量關於這類問題的文獻,稱為**變化檢測*。這裡有一篇很好的評論:State-of-the-Art in Sequential Change-Point Detection。Shiryaev寫了很多關於這個主題的好論文。
通用方法是選擇一個對比度(即,當狀態保持不變時為低的標準,而在變化期間為高的標準),並將其設置為門檻值以檢測政權的變化。然後重新啟動平滑就足夠了。實際上,為了舒適起見,您可以根據需要在兩個開關之間使用指數移動平均線。
對於均值,一個典型且簡單的對比是最近的經驗均值與通過標準差正規化的舊的均值:
$$ C(K):=\left|\frac{{\rm mean}(X_{K}:X_{K-h})-{\rm mean}(X_{K-2h}:X_{K-h})}{{\rm std}(X_{K-2h}:X_{K-h})}\right|, $$ 用符號 $ X_{a}:X_{b} $ 時間序列從 $ b $ 到 $ a $ .