使用財務回報數據解釋回歸係數？

September 5, 2021

我的自變數是股票 A 的月收益。我的因變數是股票 B 的月收益。收益是使用以下公式計算的
$$ (price at end of month) / (price at beginning of month) $$- 1. 如果我執行一個簡單的線性回歸，我得到股票 A 的回歸係數為 2。由於我的數據是收益，我可以將其解釋為“股票 A 從 a 月到 a 月的月收益每邊際上漲 1% b，從 a 月到 a+b 月，我們得到股票 B 的月收益邊際上升 2%”，其中股票 A 收益上升 1% 被解釋為從 2% 到 3%，或從 8% 到 9%，等等
問題 A：我是否僅限於考慮一個月或更長時間（而不考慮幾天或其他更小的時間段）來解釋這種關係？例如，該模型可以預測如果股票 A 的回報從第 1 個月到第 1000 個月上漲 1% 會發生什麼，就像從第 5 個月到第 6 個月上漲 1% 一樣 - 股票 B 將上漲 2%，同時考慮兩者時間框架，對吧？如果我們計算 30 天的回報，但讓它更加隨機（可能是第 5 天的開始價格和 30 天之後的結束價格，這樣的周期為 30 天）。如果我們使用這個回報公式觀察到股票 A 上漲 1%，那麼我們不能說我們的模型會預測股票 A 的回報會上漲 2%，因為它不是同一個公式嗎？所以簡而言之，我們的解釋必須堅持我們最初計算回報的方式嗎？
問題 B：如果我們使用 1 個月滯後的股票 A 收益，解釋會如何變化？我們是否說“如果股票 A 的月收益率從 a 月到 a+b 月上漲 1%，那麼股票 B 的月收益率從 a+b 月到 a+b+1 月將上漲 2%？”

對 OLS 使金融證券相互回歸的批評部分是公平的。
每個 CFA 學生都必須學習（和背誦）的市場基石理論 CAPM 認為預期回報是這種 OLS 回歸（相對於市場）的線性函式，這無濟於事。根據經驗，這完全是胡說八道！
是的，虛假相關和相關回歸的危險是一個著名的問題。Granger 和 Newbolt (1973) 著名地表明隨機遊走將隨著時間的推移越來越相關！
但是有一種“把嬰兒和洗澡水一起扔出去”的說法，這一切都太過分了。假設 A 和 B 是福特和通用汽車。我們真的是說他們的股票收益之間的相關性是虛假的嗎？分析師確實應該謹慎。一個的運動不是另一個運動的原因。因此，該模型一開始可能確實是錯誤的。然而，對於影響另一方的未觀察到的驅動因素，任何一方的回報都代表了一個合理且直覺的不完美代理；直覺上對兩者都是好是壞。由於模型將“省略變數偏差”。然而，如果股價是可觀察的，而潛在的相互驅動因素本身，“混雜變數”則不可觀察，這是一個權宜之計。這裡不需要神奇的荷蘭拍賣師。
如果模型規範中存在這個固有問題（並且通常存在於現實世界的金融市場數據中），那麼這將是所有回歸方法的問題。這裡的 OLS 沒有什麼特別的問題。
爭論回報沒有均值或變異數也是一種延伸。該論點取決於假設價格是隨機變數。但是，如果價格是作為真正隨機變數的回報的函式，那麼後者可以很容易地具有均值和變異數。為什麼貝氏信心認為價格而不是回報是這裡的隨機變數？這是怎麼給定的（統計考試課程除外）？
在經典的計量經濟學方法中，鑑於 A 和 B 均由 C 驅動，分析師應嘗試糾正“聯立方程偏差”。理想情況下，您會使用第三家汽車公司的股票收益 D 作為確保統計一致性的工具。但是，除了最頑固的學術計量經濟學家之外，這個過程對所有人來說都太痛苦了；-)

在回答您的問題之前，讓我列出我對這種方法的擔憂。
首先是關於任何統計模型的作用。例如，如果您測試 $ y=\beta{x}+\alpha $ 而真正的模型是別的東西，那麼你的回歸將是虛假的。您假設兩者之間存在關係 $ X $ 和 $ Y $ .
我的金融同事會在這裡跳來跳去，開始發布有關金融理論的文章。這不是我對最後一段的意圖。我要說的是，您不能僅僅因為您進行回歸併找到它就假設存在某種關係。它可能是虛假的。例如，美國的驢子數量與授予的博士學位數量之間存在相關性。沒有真正的關係，但人口規模與驢的數量以及人口規模和授予的學位數量之間存在關係。找到一段關係是永遠不夠的。
重要的是，除了你可能認為它是顯而易見的之外，你對你的模型有一個理由。在量化金融中，人們往往會忘記這一點，並且由於我們的數據集中自然的高度相關性，會發現許多虛假的關係。
第二個是當你說回歸時你沒有具體說明你的意思。我假設您的意思是普通最小二乘，（OLS）。這有幾個問題。首先是OLS違反了荷蘭書定理。
荷蘭書定理基於兩個不同的想法。首先是有做市商或博彩公司清算所有賭注。做市商將拒絕玩任何“正面你贏，反面我輸”的遊戲。為防止這種情況發生，做市商將以其規定的價格接受任何訂單。你可以長或短。第二，每一個決策都是做市商的邊際決策。用標準術語來說，他們試圖最大化利潤。
出於高度技術性的原因，OLS 會導致對聰明的對手的肯定損失。自從 1955 年以來，數學就已經解決了。當然，由於大多數人不知道這一點，因此沒有反對者積極試圖讓別人賠錢，但它正變得越來越為人所知。
唯一不受肯定損失影響的技術是具有適當先驗分佈的貝氏方法。 因此，如果您正在執行貝氏回歸，那就沒什麼大不了的。
荷蘭圖書定理不適用於學術工作。它僅適用於使用統計方法進行交易時。如果你在做學術工作，那麼工具的範圍就會擴大很多。
對 OLS 的第二個反對意見來自您的問題定義。讓我們再看看你的定義。如果我們將沒有股息的回報定義為$$ r=\frac{p_{t+1}}{p_t}-1, $$然後 $ r $ 是統計數據而不是數據。 $ r=r(p_t,p_{t+1}), $ 所以 $ r $ 是一個函式。隨機數據是價格。所以 $ r $ 是比率分佈的統計量，即一個隨機變數除以另一個。
在非常溫和的假設下，自 1940 年以來就知道這種分佈不會有均值或變異數。不幸的是，展示或證明並非易事。然而，這是統計學專業的第一或第二學期作業問題。他們必須知道如何加、減、乘或除隨機變數。如果您不是統計學專業的，那麼您沒有理由需要知道如何做到這一點。這不是微不足道的數學。背景數學實際上是相當困難的。
如果沒有均值或變異數，自 1851 年奧古斯丁·柯西 (Augustin Cauchy) 證明以來，OLS 的結果就被認為是虛假的。所以你不能使用 OLS。這就是股票回報率高的原因。
儘管如此，您仍然可以執行多個回歸，最突出的是 Theil 回歸或分位數回歸。Theil 回歸是一種重採樣方法，非常穩健。分位數回歸速度很快，但對極值點更脆弱。
因此，如果您使用貝氏方法、泰爾回歸或分位數回歸作為您的工具，我們可以討論回歸。
讓我們首先使用 Theil 回歸，對於第 50 個百分位數的分位數回歸，結果往往相同。
因為不可能有平均回報，所以不存在這樣的東西，我們將通過中值回報進行映射。當係數為 2 時，您最多可以說的是，如果股票 A 上漲 1%，那麼 50% 的時間股票 B 將上漲 2% 或更多，並且將在一半時間內產生不到 2% 的回報，包括虧損。
作為一個單獨的問題，以及您的實際問題 A，您可以更改時間範圍嗎？不，股本證券的回報不是規模不變的，在邏輯上也不可能。如果您想要另一個時間範圍，例如年度回報，那將是一個單獨的計算。
至於你的第二個問題，如果你的回歸是 $ Br{t+1}=\beta_Ar_t+\epsilon, $ 在哪裡 $ \epsilon $ 是一個隨機變數，那麼您將預測證券回報增加 1% $ A $ 將導致 2% 或更多的回報 $ B $ 在接下來的時間裡有百分之五十的時間，而另一半則更少。
現在，對於貝氏回歸，重要的是要注意回報率不能低於 -100%。位置的中心將是眾數，而不是中位數，因此解釋將是回報之間最常見的關係，當 $ A $ 漲了1%是這樣的 $ B $ 將上漲 2%。
儘管如此，回歸將是通過模態點的模態斜率。
總之，股票證券不是規模不變的。如果您在有效模型上使用正確的統計方法，那麼您必須在每個時間範圍內重新進行工作。其次，如果證券 A 的目前回報率是證券 B 回報率的領先指標，那麼如果您使用正確的方法，那麼您當然可以使用回歸模型找到它。再次注意，這假設它確實是一個主要變數並且關係是有效的。我建議閱讀一本關於所謂的道氏理論的歷史書來了解這個想法。
它比這要復雜一些，因為貝氏方法會產生完整的機率分佈並具有單獨的預測分佈。獲得點估計也取決於您選擇的效用函式。
編輯至於荷蘭書定理，您可能會導致機構被迫承擔損失並不是唯一的OLS。它是任何非貝氏程序和一些貝氏程序。
荷蘭書定理是布魯諾·德·菲內蒂 (Bruno de Finetti) 數學觀察的結果。他觀察到博彩公司或做市商不會玩“正面你贏，反面我輸”的遊戲。因此，機率的第一個公理化由此而來。這樣的書被 19 世紀的賭徒稱為荷蘭書。目前尚不清楚該術語是英國人，指的是與他們發生過多次戰爭的荷蘭人，還是美國人，指的是美國人誤認為是荷蘭人的德國移民。無論哪種情況，這都是一個種族主義術語，因為只有荷蘭人或德國人才能愚蠢到強迫自己輸掉一場比賽。
荷蘭書定理及其逆定理都成立。影響 OLS 的關鍵元素與集合的添加有關。根據荷蘭書定理，集合是有限可加的，但不是可數可加的。根據 Kolmogorov 公理，集合是可數加法的。
我相信是倫納德·吉米·薩維奇（Leonard Jimmie Savage）使用了以下類比來解釋為什麼頻繁機率會導致肯定的損失。
想像一個裝有有限數量球的甕。即使球被抽出的機率不相等，只要有足夠的資訊，就有可能為每個球建構賭博賠率。球的數量無關緊要。數字是有限的確實很重要。
現在想像一個包含整數的甕。暫時假設您可以以某種合理的方式畫一個球。為簡單起見，我們假設它們是等機率的。還假設您可以賣空賭注或做多賭注。抽中任何一個球的機率都是無限的，所以你怎麼能分配價格，記住你所說的機率可能會被賣空。
現在，使用頻率模型的所有投注的 100% 會產生純粹的套利機會是不正確的，只是其中的一部分，儘管有些遊戲會發生所有投注的 100%。我有一個展示遊戲，其中 48% 的賭博會導致確定的勝利，而所有賭博的 75% 是基於 MVUE 通過未知點傳遞一條線的勝利。在這裡發帖太長了。在展示中，由於不確定性在數學上是對稱的，因此頻率論者會在這條線上給出偶數賠率。
在該範例中失去的是頻率不是機率。例如，如果您採用任何正態分佈的總體並在沒有放回的情況下抽取大量樣本，並讓兩個人對每個樣本進行估計，一個使用平均值，另一個使用中位數，那麼他們的信賴區間將具有不同的大小。
系統差異來自於中位數的抽樣分佈與均值不同的事實。頻率首先以損失函式為條件，機率最小化該損失函式下的最大風險水平。機率不以數據為條件，而是以模型為條件。
因為它們以基於您的效用函式的方式進行分區，所以它們不僅取決於您所看到的。
參見：de Finetti, Bruno (1937), “Foresight: Its Logical Laws, Its Subjective Sources”, Henry E. Kyburg 和 Howard EK Smokler (eds.), Studies in Subjective Probability, Huntington, NY: Robert E. Kreiger Publishing公司
Dubbins, Lester E 和 Savage, Leonard J. (1976) 隨機過程的不等式，如果必須要如何賭博。多佛出版物。
Kemeny, John (1955)，“公平賭注和歸納機率”，符號邏輯雜誌，20 (3): 263–273。
Lehman, R. Sherman (1955)，“關於確認和理性投注”，符號邏輯雜誌，20 (3): 251–262。
Savage, LJ (1954)，統計基礎，紐約：威利。
至於比率分佈，確實許多比率分佈具有有限變異數。這將取決於價格的長期分佈。
草圖可能是這樣的。
股票證券是在雙重拍賣中出售的，因此它們不受贏家詛咒的影響。拍賣規則的改變可能會改變這一點。在沒有贏家詛咒的情況下，競價的理性行為是出價自己的期望。
隨著時間趨於無窮大，在均衡價格附近的抽樣分佈將通過擴展中心極限定理而成為投標的正態分佈。或者，它可能是一個截斷的正態分佈，因為負價格很少發生。
我們對分佈的關注是生成的，而不是基於抽樣的，如果你改變你的模型，你就會改變分佈。然而對於 $ p_{t+1}/p_t $ 你會得到兩個偏離中心的正態分佈。事實證明，有幾種方法可以對此進行建模。這個版本的行為很糟糕，但它是最簡單的，足以說明這一點。
如果我們跟隨 Markowitz 的流動性無限，期間沒有股息，沒有破產或合併，那麼我們正在關注持續經營。如果我們更接近誠實，則存在一個公司將無法生存的正機率。所以存在一個機率， $ \pi(g), $ 並且考慮到公司生存的回報情況。從貝氏規則，我們可以談論 $ f(r|g)\pi(g) $ ，在哪裡 $ r $ 是返回和 $ f $ 是一個可能是機率或可能性的函式，具體取決於我們所處的思維繫統。
不管我們的思想體系如何， $ f(r|g) $ 是回報率的情況，其中公司肯定能夠生存。他們永遠不會在那個函式中死去。可能性或機率的其餘部分將是 $ f(r|\tilde{}g)(1-\pi(g)) $ . 在那個領域，公司永遠無法生存。
因為 $ f(r|g) $ 永遠存在，關注的分佈是漸近的。有無限數量的限價訂單 $ t\to\infty $ 每一個都是一個期望。
現在，由於一些明顯的原因，最簡單的原因是價格不會永遠理性地固定在一個點附近，這樣的討論太簡單了。
但是，添加非平穩分佈並不能使變異數的論證更容易。這也是我限制這一點的原因，因為這可能是書本長度。
兩個非中心正態分佈的比率沒有變異數，儘管在某些情況下它們可能“幾乎”具有均值和變異數。
對於涉及標準法線的更一般情況，請參閱
馬薩利亞，G.（2006 年）。正態變數的比率。統計軟體雜誌，16（4），1 - 10。
該文章引用了同一作者的較早文章，該文章以更好的方式涵蓋了該案例，但我找不到它的引用。
你可以在弗洛因德的數理統計教科書第三或第四版左右找到這個作為家庭作業的問題。我不知道我把我的副本放在哪裡，所以我不確定是哪一個。

引用自：https://quant.stackexchange.com/questions/66697

使用財務回報數據解釋回歸係數？

相關問答

如何模擬收益意外對長期回報的影響？

為什麼 Stata 省略了我的一些變數並且 mfx 不起作用？

經典線性回歸模型

這是完美多重共線的例子嗎？

測量誤差 - 多變數情況

OLS估計器樣本變異數的推導