如何將 Levenberg Marquardt 應用於最大概似估計
在這篇關於 p315 的論文中:
http://www.ssc.upenn.edu/~fdiebold/papers/paper55/DRAfinal.pdf
他們解釋說,他們使用 Levenberg Marquardt (LM)(連同 BHHH)來最大化可能性。但是,據我了解,LM 只能用於解決最小二乘 (LS) 問題?此類問題的 LS 和 MLE 解決方案是否相同?
我知道當錯誤像 OLS 一樣正常時,解決方案是相同的。這裡估計的過程是 AR(1),因此即使整個過程不是,錯誤也是正常的。在這種情況下,我是否仍然可以交替處理 MLE 和 LS 解決方案?
在哪種情況下,我可以在知道最優 LS 參數也是解決 MLE 問題的參數的情況下安全地應用 LM 來解決 LS 解決方案?
或者是否必須以某種方式更改 LM 算法才能直接應用於 MLE 估計?如果有怎麼辦?
一旦時間序列和滯後對齊並且一切都設置好,AR(1)實際上是一個標準的回歸問題。為簡單起見,讓我們看一下“標準”回歸問題。我將嘗試從那裡得出一些結論。
假設我們想要在想要近似的地方執行線性回歸 $ y $ 和
$$ h_(x) = \sum_0^n \theta_i x_i = \theta^T x $$ OLS 是更廣泛的算法家族的一個特例,其中選擇的成本函式是:
$$ J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (h_\theta(x_i) - y_i)^2 $$, 在哪裡 $ \theta $ 是權重, $ y $ 是回歸量(特徵), $ x $ 回歸量(目標變數)和 $ i $ 表示 $ i $ 第一個樣本元素。 我們可以對上述“機械”機器學習模型進行機率解釋。我們必須寫:
$$ y_i = \theta^T x_i + \epsilon_i $$ 如果我們假設 $ \epsilon_i \sim N(0, \sigma^2) $ , 我們知道
$$ p(\epsilon_i) = \frac{1}{\sqrt{2 \pi} \sigma} \exp \bigg(-\frac{\epsilon_i^2}{2 \sigma^2} \bigg) $$ 然後我們可以寫出條件機率
$$ p(y_i | x_i; \theta) = \frac{1}{\sqrt{2 \pi} \sigma} \exp \bigg(-\frac{(y_i - \theta^T x_i)^2}{2 \sigma^2} \bigg) $$ 那麼概似函式是:
$$ L(\theta) = \prod_{i=1}^m p(y_i | x_i; \theta) $$ $$ log L(\theta) = \prod_{i=1}^m \frac{1}{\sqrt{2 \pi} \sigma} \exp \bigg(-\frac{(y_i - \theta^T x_i)^2}{2 \sigma^2} \bigg) $$ 經過一些改組後變為:
$$ log L(\theta) = m \log{\frac{1}{\sqrt{2 \pi} \sigma}} - \frac{1}{\sigma^2}\frac{1}{2}\sum_{i=1}^{m}(y_i - \theta^T x_i)^2 $$ 這實際上是完全相同的優化問題:您可以修剪上面並只留下 $ J(\theta) $ OLS 問題的函式。
問:我知道當錯誤像在 OLS 中一樣正常時,解決方案是相同的。這裡估計的過程是 AR(1),因此即使整個過程不是,錯誤也是正常的。在這種情況下,我是否仍然可以交替處理 MLE 和 LS 解決方案?
在上面的推導中,我們看到 MLE 不考慮 $ \theta $ 作為隨機變數,與其他方法(貝氏MAP)中的情況一樣,因此,我相信您可以在知道錯誤是正常的情況下互換地對待MLE和LS。正確推斷:藍色。
問:LM 算法是否必須以某種方式進行更改才能直接應用於 MLE 估計?如果有怎麼辦?
我相信這是真的,因為優化問題是相同的。