您如何從同等加權的價格數據中合成機率密度函式 (pdf)？

November 7, 2012

我正在使用的內容： 我有一組價格很少或沒有重複值（取決於回溯期），即每個價格值都是唯一的，有些價格是聚集在一起的，有些價格可以分散很遠。
由於每個價格只有一個計數，因此每個價格具有相等的機率權重。這種類型的數據產生一個平面（pdf）。我正在尋找一個曲線線性（pdf），所以我可以找到興趣水平。
問題： 如何從具有與 (1) 相同頻率/計數和機率分佈的數據構造曲線線性 (pdf)？
潛在的解決方案：
1）一些值是分群的，它們看起來可以被分組以生成聚合頻率/計數。
我喜歡這個主意，但你使用什麼技術？
我可以使用交易量或報價來衡量名義價格值。
對於我的工作，我對交易量或刻度加權分佈的影響不感興趣。
非常感謝論文或其他資源的推薦。
@先鋒2k
首先，我假設您的價格數據都來自同一種資產，但分佈在某個時間範圍內。 正確，所有價格均來自 S&P500 期貨的一個交易品種，即日內價格。作為第一步，您可以製作數據的直方圖。這是因為我的直方圖形狀“缺乏”（它是平坦的，就像地毯圖），我正在尋找一種技術來梳理出曲線線性（pdf）。由於我的數據集中類似價格值的頻率很低，任何價格的機率權重等於所有其他價格機率值，P($price)=1/sample qty。
我的直方圖看起來類似於這張 wiki 圖片：http: //upload.wikimedia.org/wikipedia/commons/thumb/4/4c/Fair_dice_probability_distribution.svg/200px-Fair_dice_probability_distribution.svg.png
您可以在此處查看密度估計的主題。
我花了一天時間查看您的連結，核心密度估計 (kde) 的方法看起來很有希望。但我並不完全理解如何構造一個（kde）。
我已經開始列出如何繪製（kde）。必須採取哪些步驟來實施具有真實世界價格範例的核密度估計？
程序？：
1 確定將哪種類型的分區/分群方法應用於金融時間序列（5 個類別/方法：分區、分層、密度、基於網格和基於模型）。
2 應用分群技術將觀察結果分組。
3 計算核心頻寬的實際估計值，h = (1.06StDevqtySampled)¯¹/5，或 MISE。
4 確定要使用的核函式（Epanechnikov、Quartic、Triangular、Gaussian、Cosine 等）
5 計算每個價格的核密度估計。
6 對核心求和以進行核心密度估計。
問題： (kde) 是否為不在價格數據集中的價格分配機率值？維基百科上的第一個（kde）範例圖像表明它確實如此。 http://en.wikipedia.org/wiki/File:Comparison_of_1D_histogram_and_KDE.png
如果您沒有時間序列數據而只有價格數據並且您想對它進行分群（您說的是“價格水平分群”），您應該研究非監督式學習的主題。 我不明白“時間序列數據”和“價格數據”之間的區別？

首先，我假設您的價格數據都來自同一種資產，但分佈在某個時間範圍內。
如果您正在尋找該資產的價格在實軸上的分佈，您有很多方法（數學和統計學中的幾個領域都涉及這個主題）。
作為第一步，您可以製作數據的直方圖。在那裡你可以看到你正在談論的集群。它使您對數據的分佈有一個很好的印象。
問題答案：有很多方法可以從離散數據集中獲得密度。您可以在此處查看密度估計的主題。自由軟體 R (www.r-project.org) 有很多包可以幫助您實現這一目標。
一般來說，在時間相關數據（金融時間序列）的情況下，您很快就會意識到其他影響（參見時間序列）。例如，人們注意到密度隨時間而變化（例如，由於季節性）。這仍然不夠，許多（金融）時間序列似乎依賴於過去（例如，參見主題自相關）。從數據中估計單一密度的方法通常是不可取的，因為它會隨著時間而變化！人們試圖對數據隨時間的依賴性進行建模。因此，經常有必要談論“時間的條件密度 $ t $ ”。
如您所見，您可以在這裡做很多事情，這只是可能方法的一小部分。
如果您沒有時間序列數據而只有價格數據並且您想對它進行分群（您說的是“價格水平分群”），您應該研究非監督式學習的主題。但請注意您的結果可能會隨著時間的推移而發生變化！
一般來說，所有提到的主題都被廣泛使用並且相互關聯。我希望這至少在某種程度上回答了您的問題（並且我理解了您的問題的含義*）*。
*編輯：*只是對您在問題中發表的評論的一些評論。我希望我找到了所有這些：
就直方圖而言：漂亮直方圖的“藝術”部分取決於您如何選擇區間。如果您將期貨合約的 2 到 5 個點之間的間隔長度作為（例如），您將得到不同的畫面，您應該能夠發現更類似於密度的東西。您將價格數據劃分為 5 個點的間隔，併計算每個間隔中有多少價格數據。然後你可以說 $ 5% $ 的數據介於 $ 1408 $ 和 $ 1410 $ . 在這裡我必須再次強調，說有一個 $ 5% $ 未來 S&P 未來值位於此區間內的機率！
我不確定您應該如何在這裡連結分群和密度估計的主題。對於這兩個主題，您絕對可以查看此資源：統計學習要素。這是一本免費書籍，廣泛用於（但不僅限於）這些主題的教學和學習。
對新問題的回答：您圖片中的密度估計（或我提到的書中的圖 6.13）為每個值分配了一個機率 - 包括那些不在數據集中的值。只是這不是一般核心密度估計的屬性，而是使用的核心（這裡是高斯）。
時間序列數據和價格數據之間的差異：在數學中，隨機樣本由具有相同分佈的獨立隨機變數組成。有壓倒性的證據表明，財務回報的分佈隨時間而變化，並且它們不是獨立的。金融時間序列不應被視為隨機樣本，因為它們既不獨立也不同分佈。這就是我想在這裡說的。

一種簡單的方法是
構造累積機率函式 (CDF)，它將是一個階躍函式。
平滑 CDF；例如，通過使用樣條曲線或核平滑函式。
計算平滑 CDF 的斜率，給出彎曲的線性 PDF。
在 R 中，這可以使用 ecdf 函式和核心平滑器之一來完成。
同樣，正如 vanguard2k 警告的那樣，此過程假設您的分佈隨著時間的推移是靜止的。

引用自：https://quant.stackexchange.com/questions/4456

您如何從同等加權的價格數據中合成機率密度函式 (pdf)？

相關問答

如何從現有的機率密度函式值擬合 KDE

關於如何使用自然語言處理來預測股票的任何研究？

什麼是經濟臨近預報？

使用神經網路的時間序列預測中的一致偏移/滯後（提供所有程式碼）

期貨市場的未平倉合約能否預測商品、國債和股票收益？

預測投資組合回報