為什麼以及何時應該使用 log 變數?
通常,我看到金融論文使用實際比率,但記錄非比率變數。例如,有些論文使用 log(asset) 或 log(1+firm age) 或 log GDP,但關於比率,他們使用實際值。我想知道為什麼以及何時應該將 log 與變數一起使用。我想知道它是否與標準錯誤有關。
根據您的論文和變數,我假設您詢問在計量經濟學模型中的使用。獲取日誌有一些經驗法則(不要認為它們是理所當然的)。例如,參見Wooldrigde: Introductory Econometrics P. 46。
- 當變數是正數時,通常會取對數(工資、公司銷售額、市場價值……)
- 人口、員工人數、入學人數等變數也是如此(為什麼?-見下文)。
- 以年為單位的變數(教育、經驗、任期、年齡等)通常不會被轉換(以原始形式)。
- 失業率、參與率、通過考試的學生百分比等百分比(或比例)以任何一種方式都可以看到,並且傾向於以水平形式使用。如果您採用涉及原始變數的回歸係數(無論是自變數還是因變數),您將得到一個百分點變化的解釋。下表總結了由於各種轉換而在回歸中發生的情況:
現在除了解釋回歸中的係數(這本身很有用)之外,日誌還有各種有趣的屬性。幾年前我這樣做了,只是在這裡複製粘貼(請原諒我沒有更改格式並使圖表更漂亮等)。
為什麼自然對數是如此自然的選擇?
Gilbert Strang:增長率和對數圖補充了以下內容,因此值得一看。
我們使用自然對數有 6 個主要原因:
- 對數差異近似為百分比變化
- 對數差異與變化方向無關
- 對數刻度
- 對稱
- 數據更可能呈正態分佈
- 數據更可能是同變異數的
原因 1: 對數差異近似為百分比變化
這是為什麼?有幾種方法可以證明這一點:
- 下面介紹一個
- 使用泰勒級數和麥克勞林級數的其他解釋
如果你有兩個值:
x = 舊值(例如 1.0) y = 新值(例如 1.01)
**屬性 1:**簡單的百分比計算表明它是 1%
$$ \frac{New - Old}{Old} = \frac{New}{Old} - 1 = \frac{1.01}{1.0} -1 = 0.01 $$
提示:這不是精確百分比計算中的計算錯誤:
但是對數近似是如何工作的呢?
屬性 2 Khan Academy 對數屬性 $$ ln(u/v)=ln(u)−ln(v) $$
這使您可以大大簡化某些表達式。
屬性 3: $$ ln (1 + x) \approx x $$
現在結合已建立的屬性,我們可以重寫
$$ x = \frac{New - Old}{Old} = \frac{New}{Old} - 1 $$
使用:
$$ ln (1 + x) \approx x $$
給出:
$$ ln \Bigg(1 + \frac{New}{Old} - 1\Bigg) = ln \Bigg(\frac{New}{Old}\Bigg) \approx \frac{New - Old}{Old} $$
它使用日誌的屬性 $$ ln \Bigg(\frac{u }{ v}\Bigg) = ln (u) - ln (v) $$
可以改寫為
$$ ln (New) - ln (Old) \approx \frac{New - Old}{Old} $$
**原因2:**對數差異與變化方向無關
另一點值得注意的是,1.1 到 1 幾乎下降了 9.1%,1 到 1.1 增加了 10%,對數差 0.953 與變化方向無關,並且始終在 9.1 和 10 之間。此外,如果你翻轉日誌差異中的值,所有改變的只是符號,而不是值本身。
**原因 3:**對數刻度
以恆定增長率增長的變數隨著時間的推移以越來越大的增量增加。取一個隨時間以恆定增長率增長的變數 x,比如每年 3%:
現在,如果我們使用標準(線性)垂直比例繪製 𝑥 與時間的關係,則該圖看起來是指數級的。隨著時間的推移,𝑥 的增加變得越來越大。表示𝑥演變的另一種方式是使用對數刻度在垂直軸上測量𝑥。對數刻度的特性是該變數的相同比例增加由刻度上相同的垂直距離表示。由於在這個例子中增長率是恆定的,它變成了一條完美的線性線。
這很好地顯示了對數刻度在垂直軸上的效果。
原因是 0.1 和 1、1 和 10、10 和 100 等之間的距離在對數刻度上是相同的。
原因 4:對稱性更詳細地解釋了這一點。
與這些例子相反,GDP 等經濟變數並非每年都以恆定的增長率增長。
- 它們的增長率可能在某些幾十年更高,而在其他幾十年則更低。
- 然而,當觀察它們隨時間的演變時,使用對數尺度通常比線性尺度更能提供資訊。
- 例如,現在的 GDP 是 100 年前的數倍。曲線變得越來越陡峭,很難看出經濟增長是比 50 年前還是 100 年前快還是慢。
**理由四:**對稱
對數變換減少了正偏度,因為它壓縮了分佈的上端(尾部),同時拉伸了下端。原因是 0.1 和 1、1 和 10、10 和 100、100 和 1000 之間的距離在對數刻度上是相同的。您還可以在上面的 pyplot 圖表中看到這一點。
這還有另一個重要含義:
- 如果您對一組數據應用任何對數變換,則無論您使用何種對數類型,對數的均值(平均值)大約等於原始均值的對數。
- 但是,僅對於自然原木而言,稱為標準偏差 (SD) 的散佈度量大約等於原始尺度中的變異係數(SD 與平均值的比率)。
**原因 5:**數據更可能是正態分佈 讓我們從對數正態分佈開始
變數 x 具有對數正態分佈,如果 $ log(x) $ 是正態分佈的。如果隨機變數是大量獨立的、同分佈的變數的乘積,則會產生對數正態分佈。這將在下面展示。
這類似於正態分佈,如果變數是大量獨立的、同分佈的變數的總和,則會產生正態分佈。
$ \mu $ 是平均值並且 $ \sigma $ 是變數的正態分佈對數的標準差。
如果p 值 $ \leq 0.05 $ ,那麼您將拒絕樣本來自正態分佈的 NULL 假設。簡單地說,樣本很少有機會來自正態分佈。
使用 SciPy 的 stats 模組
以下部分展示從均勻分佈中獲取隨機樣本的乘積會產生對數正態機率密度函式。
定義
$$ {\displaystyle \mu =\ln \left({\frac {m}{\sqrt {1+{\frac {v}{m^{2}}}}}}\right),\qquad \sigma ^{2}=\ln \left(1+{\frac {v}{m^{2}}}\right).} $$
對數正態分佈的機率密度函式為:
$$ p(x) = \frac{1}{\sigma x \sqrt{2\pi}}\ \cdotp \ e^{\bigl(-\frac{(ln(x) \ - \ \mu)^2}{2\sigma^2}\bigr)} $$
在哪裡 $ \mu $ 是平均值並且 $ \sigma $ 是我們剛剛在上面計算的變數的正態分佈對數的標準偏差。給定公式,我們可以輕鬆計算和繪製 PDF。
**原因 6:**數據更可能是同變異數的。通常,測量值會以百分比為基礎發生變化,例如 10%。在這種情況下:
- 典型值為 80 的東西可能會在 80 範圍內跳躍 $ \pm 8 $ 儘管
- 典型值為 150 的東西可能會在 150 範圍內跳躍 $ \pm 15 $ .
即使不是基於精確的百分比,通常具有較大值的組也往往具有較大的組內變異性。對數變換經常使組內變異性在組間更加相似。如果測量值確實以百分比為基礎發生變化,則可變性將在對數標度中保持不變。請查看此參考以獲取更多資訊。
讓我們從生成條件分佈開始 $ y $ 給定 $ x $ 有差異 $ f(x) $ .
用簡單的英語來說,我們需要一些日期的可變性增加的東西 $ x $ 增加。