計算收益時如何處理價格序列中的間歇性 NA 值
假設 a 有一個 2000 年的價格序列。在 2000 年 7 月 27 日,有一個缺失值,由 NA 表示。這不是假期或任何其他非交易日,因為其他股票在同一天具有價值。
現在在計算回報時,最好的方法是什麼?我是用之前的觀察結果填充 NA 還是保持原樣?前一種方法在 7 月 27 日創建返回 0,而後一種方法在 7 月 28 日創建兩個 NA 值和另一個。在這種情況下,哪種方法更合適?
這個問題沒有單一的答案。這在很大程度上取決於您的目標以及為什麼缺少它。如果你有足夠長的時間序列,你會發現大量缺失的數據點。紐約證券交易所曾經為不久前沒有每週交易的公司保留一個職位。
但是,除非您有理由相信除了當天沒有交易發生之外,還有其他理由可以忽略它,否則有三個相當簡單的解決方案(請記住,統計中的簡單解決方案通常不存在)。
首先要注意,如果分配是 $ p\times{q} $ ,那麼它不是 $ p $ 那是缺失的,那是 $ q=0 $ . 如果您使用的是分配而不是價格,那麼您可以消除問題,因為 $ pq=0 $ . 然而,很少有人處理分配問題,主要是那些處理流動性相關問題的人。另一個問題是它看起來像一個跳轉和/或導致除以零錯誤。
第二種是將缺失的價格視為參數而不是數據。只有當您認為由於報告錯誤而不是因為缺少交易而導致價值失去時,您才應該這樣做。這將要求您使用貝氏方法。貝氏方法不僅有自然的方法來處理易於理解的缺失數據,而且它們也不會干擾參數估計。例如,將中間日期的價格中值放入會擾亂對位置中心和尺度參數的估計。
想像一個非常簡單的模型,用於說明 $ p_{t+1}=\beta{p_t}+\alpha+\epsilon_{t+1} $ . 還想像一下,你只缺少一個觀察,觀察 $ k $ . 你可以有很多失去的,因為這個過程對於許多和一個是相同的。有一個簡化符號。
如果沒有失去任何觀測值,那麼您將不得不為 $ \beta,\alpha $ 和 $ \sigma, $ 模型的尺度參數。此外,可能還有其他參數,例如 $ \theta $ ,但我們將忽略其他任何內容。解決方案是$$ \Pr(\beta;\alpha;\sigma|p_1\dots{p}_T). $$
如果缺少觀察,您將建構一個先驗分佈 $ \beta,\alpha,\sigma, $ 和 $ p_k $ . 好處是你可以使用 $ p_1\dots{p_{k-1}}\cup{p_{k+1}}\dots{p}T, $ 形成關於位置的先驗分佈 $ p_k $ . 你會解決$$ \Pr(\beta;\alpha;\sigma;p_k|p_1\dots{p{k-1}}\cup{p_{k+1}}\dots{p}_T). $$
如果你將邊緣化 $ p_k $ 會發生什麼 $ p_k $ 缺失不會對其他參數的推斷或點估計量產生不利影響。如果您還沒有使用貝氏方法,那麼我強烈建議您尋求專業統計學家的幫助。它不是新手的工具。雖然它很容易理解,但做起來可能很棘手,特別是如果關係不像時間序列中的情況那樣獨立。
第三個可以用貝氏方法完成,但我不相信它可以用最大概似方法完成。它根本沒有Frequentist對應物。
對於第三個,通過改變概似函式,省略的觀察被視為一種數據形式。沒有觀察就是資訊。讓我們回到上面的 AR(1) 函式。
$ p_{t}=\beta{p}{t-1}+\alpha+\epsilon{t} $ 和 $ p_{t+1}=\beta{p}t+\alpha+\epsilon{t+1} $ 有觀察力 $ p_t $ 不存在,因為沒有交易發生。你可以估計 $ p_{t+1} $ 通過具有條件概似函式 $ p_{t+1}=\beta^2{p}{t-1}+\beta\alpha+\alpha+\epsilon{t+1} $ . 這也有一個很好的優勢,因為您可以根據存在的觀察結果調整比例矩陣(如果是正常的共變異數矩陣)的大小。
讓我們假設您有一個大小為的共變異數矩陣 $ N $ 當所有價格都有觀察值時。如果一個人失去了失去觀察的行和列,則不會產生觀察,矩陣將是 $ (N-1)\times(N-1) $ 代替 $ N\times{N} $ 為那一天。
如果您在 7 月 27 日錯過了一隻證券的價格,並且您計算的回報為 $ \frac{p_{27}}{p_{26}}-1 $ 和 $ \frac{p_{28}}{p_{27}}-1 $ 你有兩個選擇。
您可以更改概似函式並解決$$ \sqrt{\frac{p_{28}}{p_{26}}}-1, $$或者您可以將兩個返回都留空。
如果您不將收益視為時間序列,那就是 $ r_{t+1}=f(r_t)+\varepsilon_{t+1} $ ,那麼您將擁有Frequentist、最大概似方法和貝氏方法。如果您將其視為時間序列,那麼您將有一個貝氏方法,如上所述,通過改變可能性。可能沒有嚴格的最大概似解決方法。頻率方法中經常做的是通過平均周圍價格或通過預測先前價格的價值來估算價格。
我通常反對插值/預測解決方案的原因是它對參數估計的影響不是中性的。如果它是數千個觀測值中的一個觀測值,那麼使用插值或預測是明智的,因為影響將小到可以忽略。這個問題發生在價格和/或許多缺失值的巨大變化中。大多數價格每天都會略有波動,但股票價格可能會有很大的變化。我避免使用“跳躍”這個詞,因為它們具有我不想在這裡使用的技術含義,因為它假定了一個模型。
想像一下,在 7 月 27 日,整個市場的價格發生了大幅波動,但您的證券根本沒有交易。也許這是一種普遍缺乏流動性的證券,並且在向下移動時,它們有失去交易量的趨勢。插入一個中間價格很容易使它看起來比市場波動性更小。在這種情況下,這不是一個無辜的疏忽。對於此類證券,這是一個市場失靈的案例。它資訊量很大,如果您的模型包含其他證券,則預測或插值會產生誤導。
如果您是為課程作業而這樣做並且遺漏的數量很少,我可能會插值或預測並解釋它。如果您用真錢賭博,您應該強烈考慮貝氏解決方案,因為它將包含您整個模型的完整資訊集。