您如何從同等加權的價格數據中合成機率密度函式 (pdf)?
我正在使用的內容: 我有一組價格很少或沒有重複值(取決於回溯期),即每個價格值都是唯一的,有些價格是聚集在一起的,有些價格可以分散很遠。
由於每個價格只有一個計數,因此每個價格具有相等的機率權重。這種類型的數據產生一個平面(pdf)。我正在尋找一個曲線線性(pdf),所以我可以找到興趣水平。
問題: 如何從具有與 (1) 相同頻率/計數和機率分佈的數據構造曲線線性 (pdf)?
潛在的解決方案:
1)一些值是分群的,它們看起來可以被分組以生成聚合頻率/計數。
我喜歡這個主意,但你使用什麼技術?
- 我可以使用交易量或報價來衡量名義價格值。
對於我的工作,我對交易量或刻度加權分佈的影響不感興趣。
非常感謝論文或其他資源的推薦。
@先鋒2k
首先,我假設您的價格數據都來自同一種資產,但分佈在某個時間範圍內。 正確,所有價格均來自 S&P500 期貨的一個交易品種,即日內價格。作為第一步,您可以製作數據的直方圖。這是因為我的直方圖形狀“缺乏”(它是平坦的,就像地毯圖),我正在尋找一種技術來梳理出曲線線性(pdf)。由於我的數據集中類似價格值的頻率很低,任何價格的機率權重等於所有其他價格機率值,P($price)=1/sample qty。
我的直方圖看起來類似於這張 wiki 圖片:http: //upload.wikimedia.org/wikipedia/commons/thumb/4/4c/Fair_dice_probability_distribution.svg/200px-Fair_dice_probability_distribution.svg.png
您可以在此處查看密度估計的主題。
我花了一天時間查看您的連結,核心密度估計 (kde) 的方法看起來很有希望。但我並不完全理解如何構造一個(kde)。
我已經開始列出如何繪製(kde)。必須採取哪些步驟來實施具有真實世界價格範例的核密度估計?
程序?:
1 確定將哪種類型的分區/分群方法應用於金融時間序列(5 個類別/方法:分區、分層、密度、基於網格和基於模型)。
2 應用分群技術將觀察結果分組。
3 計算核心頻寬的實際估計值,h = (1.06StDevqtySampled)¯¹/5,或 MISE。
4 確定要使用的核函式(Epanechnikov、Quartic、Triangular、Gaussian、Cosine 等)
5 計算每個價格的核密度估計。
6 對核心求和以進行核心密度估計。
問題: (kde) 是否為不在價格數據集中的價格分配機率值?維基百科上的第一個(kde)範例圖像表明它確實如此。 http://en.wikipedia.org/wiki/File:Comparison_of_1D_histogram_and_KDE.png
如果您沒有時間序列數據而只有價格數據並且您想對它進行分群(您說的是“價格水平分群”),您應該研究非監督式學習的主題。 我不明白“時間序列數據”和“價格數據”之間的區別?
首先,我假設您的價格數據都來自同一種資產,但分佈在某個時間範圍內。
如果您正在尋找該資產的價格在實軸上的分佈,您有很多方法(數學和統計學中的幾個領域都涉及這個主題)。
作為第一步,您可以製作數據的直方圖。在那裡你可以看到你正在談論的集群。它使您對數據的分佈有一個很好的印象。
問題答案:有很多方法可以從離散數據集中獲得密度。您可以在此處查看密度估計的主題。自由軟體 R (www.r-project.org) 有很多包可以幫助您實現這一目標。
一般來說,在時間相關數據(金融時間序列)的情況下,您很快就會意識到其他影響(參見時間序列)。例如,人們注意到密度隨時間而變化(例如,由於季節性)。這仍然不夠,許多(金融)時間序列似乎依賴於過去(例如,參見主題自相關)。從數據中估計單一密度的方法通常是不可取的,因為它會隨著時間而變化!人們試圖對數據隨時間的依賴性進行建模。因此,經常有必要談論“時間的條件密度 $ t $ ”。
如您所見,您可以在這裡做很多事情,這只是可能方法的一小部分。
如果您沒有時間序列數據而只有價格數據並且您想對它進行分群(您說的是“價格水平分群”),您應該研究非監督式學習的主題。但請注意您的結果可能會隨著時間的推移而發生變化!
一般來說,所有提到的主題都被廣泛使用並且相互關聯。我希望這至少在某種程度上回答了您的問題(並且我理解了您的問題的含義*)*。
*編輯:*只是對您在問題中發表的評論的一些評論。我希望我找到了所有這些:
- 就直方圖而言:漂亮直方圖的“藝術”部分取決於您如何選擇區間。如果您將期貨合約的 2 到 5 個點之間的間隔長度作為(例如),您將得到不同的畫面,您應該能夠發現更類似於密度的東西。您將價格數據劃分為 5 個點的間隔,併計算每個間隔中有多少價格數據。然後你可以說 $ 5% $ 的數據介於 $ 1408 $ 和 $ 1410 $ . 在這裡我必須再次強調,說有一個 $ 5% $ 未來 S&P 未來值位於此區間內的機率!
- 我不確定您應該如何在這裡連結分群和密度估計的主題。對於這兩個主題,您絕對可以查看此資源:統計學習要素。這是一本免費書籍,廣泛用於(但不僅限於)這些主題的教學和學習。
- 對新問題的回答:您圖片中的密度估計(或我提到的書中的圖 6.13)為每個值分配了一個機率 - 包括那些不在數據集中的值。只是這不是一般核心密度估計的屬性,而是使用的核心(這裡是高斯)。
- 時間序列數據和價格數據之間的差異:在數學中,隨機樣本由具有相同分佈的獨立隨機變數組成。有壓倒性的證據表明,財務回報的分佈隨時間而變化,並且它們不是獨立的。金融時間序列不應被視為隨機樣本,因為它們既不獨立也不同分佈。這就是我想在這裡說的。
一種簡單的方法是
- 構造累積機率函式 (CDF),它將是一個階躍函式。
- 平滑 CDF;例如,通過使用樣條曲線或核平滑函式。
- 計算平滑 CDF 的斜率,給出彎曲的線性 PDF。
在 R 中,這可以使用 ecdf 函式和核心平滑器之一來完成。
同樣,正如 vanguard2k 警告的那樣,此過程假設您的分佈隨著時間的推移是靜止的。