回歸
樣本內與樣本外的難題
- 假設我在一個樣本(樣本內)中處理 2000 年至今的數據,並且假設我的樣本外將是從 2000 年到 1950 年。然後我將得到某種類型的樣本外結果.
- 如果我然後使用從 1950 年到 2000 年的樣本內數據進行回歸(這意味著我的樣本外將是從 2000 年至今),那麼我會從樣本外得到相同的結果嗎?第 1 點,因為我將在第 2 點獲得樣本內樣本?
不,您不應該期望得到相同的結果。如果他們真的重合,那將是一個令人毛骨悚然的巧合。如果他們這樣做了,就足夠令人毛骨悚然了!
相反,您可以提出的問題是兩個子樣本的分佈是否來自相同或不同的總體。合併兩者的均值和變異數,即看 1950-現在,那麼 1950-2000 和 2000-現在來自具有這些更廣泛特徵的同一個更廣泛群體的機率是多少?這是 Kolmogorov-Smirnov 檢驗。
其他 - 更簡單 - 如果您只是對 2000 年後的外觀是否與 1950-2000 不同感興趣,則為 2000 年後的所有內容添加一個虛擬變數 0-1。另一個互動式虛擬變數 = 1x 2000 年後的回歸變數和之前的 0。或者每個回歸器有多個假人。在 1950 年至今,無論有無這些假人,都將其回歸。然後對 2000 年前與 2000 年後相同的限制進行 F 檢驗。
取兩者的 RSS,併計算差異。將其除以無限制的 RSS,包含虛擬變數的較低值。乘以 (nk),這是數據點的數量 (n) 減去模型中的變數,包括截距和所有虛擬變數。除以使用的假人數量。稱這些為“d”,
這是您的“F 統計量”。這是衡量添加所有這些假人是否具有統計學意義的衡量標準。Excel 或統計表將為您提供 F(nk,d) 的 p 值。這是您在不嘗試使 2090 年後看起來與 2000 年前不同的情況下隨機獲得相同結果的機率
按照(主觀)慣例,低於 5% 的 p 表明某事“可能”不同。低於 1%,“可能”,低於 0.1%,“幾乎肯定”如此。需要注意的是,說 10% 的 p 值仍然意味著它們更有可能不同。你只是不能指望證明這一點。你不能確定它們不一樣。
希望這可以幫助。