隨機過程

如何將 Levenberg Marquardt 應用於最大概似估計

  • June 28, 2014

在這篇關於 p315 的論文中:

http://www.ssc.upenn.edu/~fdiebold/papers/paper55/DRAfinal.pdf

他們解釋說,他們使用 Levenberg Marquardt (LM)(連同 BHHH)來最大化可能性。但是,據我了解,LM 只能用於解決最小二乘 (LS) 問題?此類問題的 LS 和 MLE 解決方案是否相同?

我知道當錯誤像 OLS 一樣正常時,解決方案是相同的。這裡估計的過程是 AR(1),因此即使整個過程不是,錯誤也是正常的。在這種情況下,我是否仍然可以交替處理 MLE 和 LS 解決方案?

在哪種情況下,我可以在知道最優 LS 參數也是解決 MLE 問題的參數的情況下安全地應用 LM 來解決 LS 解決方案?

或者是否必須以某種方式更改 LM 算法才能直接應用於 MLE 估計?如果有怎麼辦?

一旦時間序列和滯後對齊並且一切都設置好,AR(1)實際上是一個標準的回歸問題。為簡單起見,讓我們看一下“標準”回歸問題。我將嘗試從那裡得出一些結論。

假設我們想要在想要近似的地方執行線性回歸 $ y $ 和

$$ h_(x) = \sum_0^n \theta_i x_i = \theta^T x $$ OLS 是更廣泛的算法家族的一個特例,其中選擇的成本函式是:

$$ J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (h_\theta(x_i) - y_i)^2 $$, 在哪裡 $ \theta $ 是權重, $ y $ 是回歸量(特徵), $ x $ 回歸量(目標變數)和 $ i $ 表示 $ i $ 第一個樣本元素。 我們可以對上述“機械”機器學習模型進行機率解釋。我們必須寫:

$$ y_i = \theta^T x_i + \epsilon_i $$ 如果我們假設 $ \epsilon_i \sim N(0, \sigma^2) $ , 我們知道

$$ p(\epsilon_i) = \frac{1}{\sqrt{2 \pi} \sigma} \exp \bigg(-\frac{\epsilon_i^2}{2 \sigma^2} \bigg) $$ 然後我們可以寫出條件機率

$$ p(y_i | x_i; \theta) = \frac{1}{\sqrt{2 \pi} \sigma} \exp \bigg(-\frac{(y_i - \theta^T x_i)^2}{2 \sigma^2} \bigg) $$ 那麼概似函式是:

$$ L(\theta) = \prod_{i=1}^m p(y_i | x_i; \theta) $$ $$ log L(\theta) = \prod_{i=1}^m \frac{1}{\sqrt{2 \pi} \sigma} \exp \bigg(-\frac{(y_i - \theta^T x_i)^2}{2 \sigma^2} \bigg) $$ 經過一些改組後變為:

$$ log L(\theta) = m \log{\frac{1}{\sqrt{2 \pi} \sigma}} - \frac{1}{\sigma^2}\frac{1}{2}\sum_{i=1}^{m}(y_i - \theta^T x_i)^2 $$ 這實際上是完全相同的優化問題:您可以修剪上面並只留下 $ J(\theta) $ OLS 問題的函式。

問:我知道當錯誤像在 OLS 中一樣正常時,解決方案是相同的。這裡估計的過程是 AR(1),因此即使整個過程不是,錯誤也是正常的。在這種情況下,我是否仍然可以交替處理 MLE 和 LS 解決方案?

在上面的推導中,我們看到 MLE 不考慮 $ \theta $ 作為隨機變數,與其他方法(貝氏MAP)中的情況一樣,因此,我相信您可以在知道錯誤是正常的情況下互換地對待MLE和LS。正確推斷:藍色。

問:LM 算法是否必須以某種方式進行更改才能直接應用於 MLE 估計?如果有怎麼辦?

我相信這是真的,因為優化問題是相同的。

引用自:https://quant.stackexchange.com/questions/12810