PD估計問題
為什麼在 PD 估計的情況下,少數違約是一個問題?後果是什麼?你能推薦關於這個主題的筆記、書籍等嗎?
與借款人數以萬計的零售貸款組合相比,批發貸款組合中藉款人的數量要少得多,因此低違約組合通常是例外,在批發貸款組合中更經常遇到低違約組合 (LDP) 問題. 可以在此處找到有關協商低違約投資組合的有用展示文稿。本展示文稿參考了與 LDP 合作所做的其他重要工作。
因此,在估計違約機率時存在兩個問題,即觀察到的違約的稀缺性和模型的形式。為簡單起見,我們將限於 Pearson-Neyman 決策理論和貝氏決策理論。據推測,如果您正在計算違約率或違約機率,您將使用此資訊做一些事情。如果情況並非如此,學術研究中可能是這樣,那麼您應該注意,基於可能性的解決方案無論如何都將類似於頻率論解決方案。
@AlexC 指出了明顯的極端情況,即觀察到的預設值為零。如果您使用簡單的計數機制,例如預設值/總觀察值,那麼在頻率論方法中,預計的預設機率為零。它不會發生。別擔心。當然,這很幼稚,@AlexC 也指出了這一點。貝氏替代方案是有問題的,因為解決方案不是唯一的。解決方案將完全取決於先驗。儘管數據會影響最終解決方案,但後驗估計將在很大程度上由收集任何數據之前的估計決定。
為了將其置於現實世界中,請考慮一家與客戶進行了 1,000 筆信用交易且沒有違約的公司。為簡單起見,假設如果存在違約,則不可能部分恢復。這種簡單性必須消失,但讓我們保持這種簡單性。該公司正在尋求銀行貸款以擴大規模,銀行將這樣做,但拒絕其會計部門的“可疑債務準備金”。他們想要補償餘額來支付津貼。
使用貝氏方法的問題在於,您必須在收集數據之前說明您對違約率的看法。當然,這可能是追溯性的,人們可以說“去年我認為違約率會是 $ \mu\pm\sigma $ .
問題是使用什麼密度函式。有人可以使用均勻分佈作為先驗分佈,這與說所有可能的違約率均等可能相同。這種解決方案的困難在於它可能不可信。如果某件事是罕見的事件,那麼可能每個人都知道這是一個罕見的事件。事實上,如果您認為 999 次違約和 1 次違約的可能性相同,那麼您的定價可能會將所有客戶趕出信貸市場。
所以讓我們考慮一個更簡單的先驗密度,其中任何違約率 $ \theta $ 左邊的可能性更大,右邊的可能性更小。最簡單的版本是三角形分佈。它的密度是 $ 2(1-\theta). $ 這很誘人,因為它所說的只是小值比大值更有可能。挑戰在於先前的預期違約率為 33%,這並非罕見事件。
或者,可以詢問管理者他們的期望。假設經理說,根據以往的經驗,他們預計違約率為 1%,正負 1%。使用 beta 分佈作為模型,這大約是每 97 次成功中有一個預設值的 beta 分佈。先驗密度是 $ 97(1-\theta)^{96} $ .
如果你沒有註意到,我們甚至還沒有開始討論邏輯回歸之類的事情。
所以現在讓我們考慮四種可能的違約率計算,頻率分佈、均勻分佈、三角分佈和專家的密度。
在Frequentist解決方案下,違約機率為零,信賴區間寬度為零,因此
$$ 0,0 $$. 使用統一的貝氏估計是每 1002 個交易的一個預設值。貝氏 95% 最高密度可信區間為 (0.00253%,.368%)。
使用三角分佈的貝氏估計是每千零三個觀測值中的一個預設值。貝氏 95% 最高密度可信區間為 (0.00253%,.367%)
使用專家管理意見的貝氏估計是千分之九十八的觀察值。貝氏 95% 最高密度可信區間為 (0.00231%, .336%)。
當然,更深層次的問題是我們已經估計了一個我們從未見過的事件的參數。
假設他們獲得了銀行貸款,第二年總共有 2,000 次觀察,其中 9 次是違約。奇怪的是,結果必須偏離,因為頻率派的解決方案是將其視為新樣本。雖然您可以在薈萃分析中將它們組合起來,或者如果您正在對整個集合進行分析,預設設置是將它們作為單獨的樣本分開。重複在頻率論中很重要。但是,我們將通過兩種方式解決它,因為在第二年年底第一次解決問題的人不會將第一年視為不同的樣本。
第二年的估計值為 0.45%,信賴區間為 (.430%,.470%)。
聯合年份估計值為 0.3%,信賴區間為 (.289%,.311%)。
為簡化起見,僅測試“專家”決策。平均參數估計值為 0.323%。95% 的最高密度可信區間為 (.155%,.551%)。最後的貝氏後驗將成為新估計的先驗。
您可能會問自己,“為什麼貝氏估計與頻率論相比如此廣泛?” 貝氏方法基本上將罕見事件的不確定性視為比頻率方法所暗示的更為重要。雖然頻率學聯合估計非常緊湊,寬度為 0.022%,但貝氏估計非常寬,寬度為 0.396%。這比頻率論方法寬 18 倍。
差異是由兩種方法如何解釋不確定性造成的。頻率論者假設真正的模型是已知的,因為它是已知的,所以只剩下機會。貝氏方法不假設真實模型是已知的,並且為無限的可能真實模型集分配了一個機率分佈,即它是真實模型。
基本上,Frequentist 預測是建立在期望之上的預測,而貝氏方法提供預測的期望。P(E(X)) 與 E(P(X))。
如果機率接近 50%,那麼貝氏區間往往會在頻率派區間內,因為您已經看到了很多這兩種情況的例子。
您應該考慮使用這兩者中的哪一個?如果您的問題具有真假性質,例如 $ H_0:.1\le\theta $ ,那麼你應該使用Frequentist解決方案。另一方面,如果真實值 $ \theta $ 很重要,特別是如果您像管理層為應收賬款制定政策那樣對結果進行賭博,那麼您應該使用貝氏方法。
原因再次基於他們如何處理不確定性。頻率估計量是期望的一種形式。因此,在考慮真假或更恰當地拒絕空值時,它具有很好的特性。另一方面,貝氏解決方案實際上創建了可能答案的完整統計分佈。當您估計可能發生的未來事件的數量時,無論選擇得多麼好,密度函式都比單個點提供的預測估計資訊更多。
沒有討論的是諸如logit、probit或相關方法之類的東西。最大的問題是,相對於觀察到的預設值,您的因素數量必須很小。Logit 更容易討論,因為它與上面使用的方法直接相關,只是將問題轉換為賠率之一,更準確地說,是對數賠率。
上面看到的所有限制都存在於邏輯回歸中,除了您試圖根據因素來調整預測。這裡的困難在於您幾乎沒有事件的範例,因此雖然因素可能非常擅長解釋觀察到的非違約之間的變化,但它們可能不擅長預測違約和非違約之間的差異。
表單受預設值和非預設值大小的限制。想像一下,您確定將預設值與非預設值區分開來涉及八個因素,但您只看到了 9 個預設值範例。此外,您認為一個因素實際上是二次的。你會遇到過擬合的問題。您需要的東西,即對這些罕見事件的高度預測模型,正是您無法擁有的東西。幸運的是,貝氏模型選擇過程將為您提供一種規範的機制來進行估計,但是如果發現成功的模型具有上述數據的 8 個因素,那將是非常令人驚訝的。
最重要的是,大多數違約都不是“全有或全無”,最重要的是,您需要對實際風險金額進行建模,而不僅僅是對利率進行建模。這將大大減少您的自變數。
如果您的用途是學術性的或存在性的,則使用頻率學方法。如果這是用於企業,則應使用貝氏方法。