Forecasting :Principles and Practiceλ₯Ό λ°νμΌλ‘ μ 리ν λ¬Έμμ λλ€.
Forecasting: Principles and Practice , Rob J Hyndman and George Athanasopoulos
1. Stationary and Non-Stationary
2. Autoregressive(AR) Model
3. Moving Average(MA) Model
4. Autoregressive and Moving Average Model(ARMA)
5. Autoregressive Integrated Moving Average Model(ARIMA)
6. ACF(Autocorrelated Function) and PACF(Partially ACF)
(1) Stationary Process(μ μμ±) : μκ°κ³Ό κ΄κ³μμ΄ νκ· κ³Ό λΆμ°μ΄ μΌμ ν μκ³μ΄ λ°μ΄ν°
(2) Non-Stationary Process(λΉμ μμ±) : μκ°μ κ΄κ³μμ΄ νκ· κ³Ό λΆμ°μ΄ μΌμ νμ§ μμ μκ³μ΄ λ°μ΄ν°
μ μμ±κ³Ό λΉμ μμ±μ λΉκ΅ν μ μλ λ°©λ²
XμΆμ Lag(νμ¬ λ°μ΄ν°μμ μμ μ°¨μ΄)λ‘ μ€μ νκ³ , YμΆμ ACF(Autocorrelation Function)μΌλ‘ μκ°ννμμ λ μ£ΌκΈ°μ μΌλ‘ λνλλ ν¨ν΄μ΄ μμΌλ©΄ Stationary Processλ‘ λ³Ό μ μμ΅λλ€.
Autocorrelationμ΄λ?
Correlationμ μΌλ°μ μΌλ‘ λ λ³μ μ¬μ΄μ κ΄κ³λ₯Ό -1~1μ κ°μΌλ‘ νννλ μ²λμ λλ€. -1μ κ°κΉμΈ μλ‘ μμ μκ΄κ΄κ³κ°, +1μ κ°κΉμΈμλ‘ μμ μκ΄κ΄κ³κ° μ‘΄μ¬νλ€κ³ λ³Ό μ μμ΅λλ€. Autocorrelationμ΄λ Correlationμ Auto κ°λ μ΄ μΆκ°λ κ²μΌλ‘ μκ³μ΄μ μΈ κ΄μ μΌλ‘ 보μμ λ Time shiftedλ μκΈ° μμ κ³Όμ μκ΄ κ΄κ³λ₯Ό μλ―Έν©λλ€.
μκΈ°μμ μ μ’ μλ³μ(Dependent Variable) λ‘ νκ³ , μ΄μ μμ μ μκ³μ΄(Lagged Data)μΈ λ₯Ό λ 립λ³μ(Independent Variable)λ‘ κ°λ λͺ¨λΈμ μλ―Έν©λλ€. μ¦ κ°λ¨ν μ΄μΌκΈ°νλ©΄ AR Modelμ λ³μμ κ³Όκ±° κ°λ€μ μ ν μ‘°ν©μ μ΄μ©νμ¬ νμ¬ μμ μ κ°μ μμΈ‘νλ λͺ¨λΈμ μλ―Έν©λλ€.
μ°¨μ μ μκΈ°νκ·λͺ¨λΈμ λ€μκ³Ό κ°μ΄ ννν μ μμ΅λλ€.
μμ μμμ λ White Noise μ
λλ€.
μμ νμ΄λ³΄μλ©΄ νμ¬ μμ μ κ° λ₯Ό μμΈ‘ν¨μ μμ΄μ μ΄μ μμ μ Laggedλ Dataμ 맀κ°λ³μ κ° κ³±ν΄μ§ κ°κ³Ό White Noise κ°μ΄ λν΄μ§ ννμ λ€μ€ νκ· λͺ¨λΈμ΄λΌκ³ λ³Ό μ μμ΅λλ€. μ΄μ²λΌ μ°¨μ λ₯Ό κ°μ§λ μκΈ°νκ· λͺ¨λΈμ AR(p) Modelμ΄λΌκ³ λΆλ¦
λλ€.
μκΈ°μμ μ μ’ μλ³μ(Dependent Variable) λ‘ νκ³ , ν΄λΉ μμ κ³Ό κ·Έ κ³Όκ±°μ White Noise Distribution Errorλ€μΈ λ₯Ό λ 립λ³μ(Independent Variable)λ‘ κ°λ λͺ¨λΈμ μλ―Έν©λλ€. νκ·μμ λͺ©ν μμ λ³μμ κ³Όκ±° κ°μ μ΄μ©νλ λμ μ μ΄λ νκ· λͺ¨λΈμ νκ·μ²λΌ 보μ΄λ λͺ¨λΈμμ κ³Όκ±° μμΈ‘ μ€μ°¨(Forecast Error)μ μ¬μ©ν©λλ€.
μ°¨μ μ μ΄λνκ· λͺ¨λΈμ λ€μκ³Ό κ°μ΄ ννν μ μμ΅λλ€.
μ¬κΈ°μ λ White Noise μ λλ€. μμ νμ΄λ³΄μλ©΄ μ κ° κ°μ κ³Όκ±° λͺκ°μ μμΈ‘ μ€μ°¨μ κ°μ€ μ΄λ νκ· μΌλ‘ μκ°ν μ μλ€κ³ ν΄μν μ μμ΅λλ€. μ΄μ²λΌ μ°¨ μ΄λ νκ· λͺ¨λΈμ MA(q) Modelμ΄λΌκ³ λΆλ¦ λλ€.
μκΈ°μμ μ μ’ μλ³μ(Dependent Variable) λ‘ νκ³ , μ΄μ μμ μ μκ³μ΄ λ°μ΄ν°(Lagged Data)μΈ μ White Noise λ₯Ό λ 립λ³μ(Independent Variable)λ‘ κ°λ λͺ¨λΈμ μλ―Έν©λλ€.
pμ q μ°¨μμ κ°μ§λ ARMA Modelμ μμμ λ€μκ³Ό κ°μ΅λλ€.
κΈ°μ‘΄ AR, MA, ARMA λͺ¨λΈμ κ²½μ° λ°μ΄ν°κ° μ μ (Stationary)μ΄μ΄μΌ ν¨μΌλ‘ λΉμ μ (Nonstationary)μΈ κ²½μ°λ μ°¨λΆ (differencing)μ ν΅ν΄ λ°μ΄ν°λ₯Ό μ μμΌλ‘ λ³νν΄μ£Όμ΄μΌ ν©λλ€. ARIMAλ ARMA λͺ¨νμ μ°¨λΆμ dν μνν΄μ€ λͺ¨λΈμ λλ€.
λ°μ΄ν°λ₯Ό μ μμΌλ‘ λ°κΎΈλ λ°©λ²μ 무μμΌκΉ? - μ°¨λΆ(Differencing)
μ°¨λΆμ΄λ, ν μμ λ°μ΄ν°μμ dμμ μ΄μ λ°μ΄ν°λ₯Ό λΊ κ²μ μλ―Έν©λλ€. μ μμ±μ λνλ΄μ§ μλ μκ³μ΄μ μ μμ±μ λνλ΄λλ‘ λ§λλ ν κ°μ§ λ°©λ²μΌλ‘ μ°μ΄μ κ΄μΈ‘κ°μ μ°¨μ΄λ₯Ό κ³μ°νμ¬ λ°μ΄ν°κ° μ μμ±μ λνλ΄λλ‘ λ³νμν΅λλ€.
μ κ·Έλ¦Όμ μ°¨λΆμ΄ μ΄λ»κ² μΌμ΄λλμ§ λνλΈ κ·Έλ¦Όμ λλ€. μμ°¨ 1μμ μ°¨λΆμ ꡬνλ κ²½μ° "1μ°¨ μ°¨λΆ(first difference)" μ΄λΌκ³ λΆλ₯΄λ©°, μμ°¨ 2μμ μ°¨λΆμ ꡬνλ κ²½μ° "2μ°¨ μ°¨λΆ(second difference)" λΌκ³ λΆλ¦ λλ€. 1μ°¨ μ°¨λΆμ μ§ννμμλ μ μμ±μ λνλ΄μ§ μλ κ²½μ° 2μ°¨ μ°¨λΆμ μ§ννκ² λμ§λ§ 2μ°¨ μ°¨λΆμ μλ―Έμ μλ³Έ λ°μ΄ν°μ "λ³νμμ λνλλ λ³ν"λ₯Ό λͺ¨λΈλ§νκ² λλ μ μ΄μ΄μ μ€μ μν©μμλ 2μ°¨ μ°¨λΆ μ΄μμΌλ‘ ꡬν΄μΌνλ κ²½μ°λ κ±°μ μΌμ΄λμ§ μμ΅λλ€.
μμ κ·Έλ¦Όμ λ‘κ·Έ λ³ν, 1μ°¨ μ°¨λΆ, 2μ°¨ μ°¨λΆ μν κ²°κ³Όλ₯Ό μκ°νν κ²°κ³Όμ λλ€. μΌλ°μ μΌλ‘ μκ³μ΄ 곑μ μ΄ νΉμ ν νΈλ λλ₯Ό κ°μ§κ³ μλ€λ©΄ 1μ°¨ μ°¨λΆμ, μκ°μ λ°λΌ λ³ννλ νΈλ λκ° μλ€λ©΄ 2μ°¨ μ°¨λΆμ μνν©λλ€.
ARIMAλ Autoregressive Integrated Moving Averageμ μ½μλ‘ μ΄λ νκ· μ λμ ν μκΈ° νκ· μ¦ μκΈ° νκ·μ μ΄λ νκ· λͺ¨λΈμ κ²°ν©ν λͺ¨λΈμ λλ€. μμμ μλμ κ°μ΄ λνλΌ μ μμ΅λλ€.
μμ μμμ λ μ°¨λΆμ ꡬν μκ³μ΄μ΄λ©°, μ°λ³μ μμΈ‘ λ³μμλ μ μμ°¨ κ°κ³Ό μμ°¨ μ€μ°¨(lagged error)λ₯Ό λ λ€ ν¬ν¨ν©λλ€. μμ κ°μ λͺ¨λΈμ ARIMA(p,d,q) λͺ¨λΈμ΄λΌκ³ λΆλ₯΄λ©° κ° λ³μ λ λ€μκ³Ό κ°μ μλ―Έλ₯Ό κ°μ§λλ€.
μκΈ° νκ·(AR)κ³Ό μ΄λ νκ· λͺ¨λΈ(MA)μ μ¬μ©λλ κ²κ³Ό κ°μ μ μμ±κ³Ό κ°μμ± μ‘°κ±΄μ ARIMA λͺ¨λΈμλ μ μ©λ©λλ€. μ§κΈκΉμ§ λ€λ£¬ λͺ¨λΈμ ARIMA λͺ¨λΈλ‘ νννλ κ²λ κ°λ₯ν©λλ€.
ACF(AutoCorrelation Function, μκΈ°μκ΄ν¨μ) λ kμκ° λ¨μλ‘ κ΅¬λΆλ μκ³μ΄μ κ΄μΈ‘μΉ κ° μκ΄κ³μ ν¨μλ₯Ό μλ―Ένλ©°, kκ° μ»€μ§μλ‘ ACFλ 0μ κ°κΉμμ§λλ€. μκ΄κ°μ΄ λ λ³μ μ¬μ΄μ μ ν κ΄κ³μ ν¬κΈ°λ₯Ό μΈ‘μ νλ κ²μ²λΌ, μκΈ°μκ΄(Autocorrelation)μ μκ³μ΄μ μ¬μ°¨κ°(lagged values) μ¬μ΄μ μ ν κ΄κ³λ₯Ό μΈ‘μ ν©λλ€.
μμ°¨ κ·Έλνμμ κ° ν¨λκ³Ό κ΄λ ¨λ λͺκ°μ§ μκΈ°μκ΄ κ³μκ° μμ΅λλ€. μ μ μ¬μ΄μ κ΄κ³λ₯Ό μΈ‘μ νκ³ , λ μ μ¬μ΄μ κ΄κ³λ₯Ό μΈ‘μ νλ μμ λλ€.
κ°μ λ€μκ³Ό κ°μ΄ μΈ μ μμ΅λλ€.
μμ μμμ Tλ μκ³μ΄μ κΈΈμ΄μ
λλ€.
λΆλΆ μκ΄(Partial Correlation) μ΄λ λ νλ₯ λ³μ Xμ Yμ μν΄ λ€λ₯Έ λͺ¨λ λ³μλ€μ λνλ μκ΄ κ΄κ³λ₯Ό μ€λͺ νκ³ λ μ΄νμλ μ¬μ ν λ¨μμλ μκ΄ κ΄κ³λΌκ³ μ μν μ μμ΅λλ€.
λ°λΌμ λΆλΆμκΈ°μκ΄ν¨μ(PACF) λ μκΈ° μκ΄ ν¨μμ λ§μ°¬κ°μ§λ‘ μκ³μ΄ κ΄μΈ‘μΉ κ° μκ΄ κ΄κ³ ν¨μμ΄κ³ , μμ°¨ kμμμ k λ¨κ³λ§νΌ λ¨μ΄μ Έ μλ λͺ¨λ λ°μ΄ν° μ λ€ κ°μ μμν μκ΄ κ΄κ³λ₯Ό μλ―Έν©λλ€.
μ½κ² λ§ν΄, μ μ PACFλ μ μ μμν μκ΄κ΄κ³λ‘μ λ μμ μ¬μ΄μ ν¬ν¨λ λͺ¨λ μ μν₯λ ₯μ μ κ±°λ¨μ μλ―Έν©λλ€. μ μ¬μ΄μ νΈμκΈ°μκ΄μ ꡬνλ μμ μλμ κ°μ΅λλ€.
보ν΅μ λ¨μνκ² μκ° κ·Έλν(Time Plot)λ§ λ³΄κ³ λμ μ΄λ€ pμ q κ°μ΄ λ°μ΄ν°μ λ§λμ§ μ΄μΌκΈ°ν μ μμ΅λλ€. νμ§λ§ ARIMA λͺ¨λΈμμ μ μ ν pμ q κ°μ κ²°μ νκΈ° μν΄ λλλ‘ ACF κ·Έλνμ PACF κ·Έλνλ₯Ό μ΄μ©νλ©΄ κ°λ₯ν©λλ€.
μλ‘ λ€λ₯Έ k κ°μ λν΄, μ μ κ΄κ³λ₯Ό μΈ‘μ νλ ACF κ·Έλνλ₯Ό λ€μ λ μ¬λ € λ΄ μλ€. μ μ΄ μκ΄ κ΄κ³κ° μλ€λ©΄ μ μλ μκ΄κ΄κ³κ° μμ΄μΌ ν©λλ€. νμ§λ§ μ λ λ₯Ό μμΈ‘νλλ° μ¬μ©λ μλ μμ μ λ΄κΈ΄ μ΄λ€ μλ‘μ΄ μ 보 λλ¬Έμ΄ μλλΌ λ¨μν λ κ° λͺ¨λ κ³Ό κ΄λ ¨μ΄ μκΈ° λλ¬Έμ μκ΄κ΄κ³λ₯Ό κ°μ§ μλ μμ΅λλ€.
μμ κ°μ λ¬Έμ λ₯Ό 극볡νκΈ° μν΄ PACF κ·Έλνλ₯Ό μ¬μ©ν μ μμ΅λλ€. μ΄ κ°μ μμ°¨ μ ν¨κ³Όλ₯Ό μ κ±°ν νμ μ μ¬μ΄μ κ΄κ³λ₯Ό μΈ‘μ ν©λλ€. κ·Έλμ 첫 λ²μ§Έ λΆλΆ μκΈ°μκ΄μ μ κ±°ν λΆλΆμ΄ μμ΄μ 첫λ²μ§Έ μκΈ° μκ΄κ³Ό κ°μ κ°μ κ°μ§λ©°, κ° λΆλΆμκΈ°μκ΄μ μκΈ° νκ· λͺ¨λΈμ λ§μ§λ§ κ³μμ²λΌ μΈ‘μ ν μ μμ΅λλ€.
ACFμ PACFμ λͺ¨μμ ν΅ν΄ ARIMA λͺ¨λΈμ λ§€κ° λ³μμΈ pμ qλ₯Ό κ²°μ νλ λ°©λ²μ μλμ κ°μ΅λλ€.
.
.
.
κ°μ¬ν©λλ€!