[Review] The MIDAS Touch: Mixed Data Sampling Regression Models
01 Introduction
- MIDAS
- variable of interest
는 the lower frequency variable
이지만 relevant information
은 the high frequency data
인 경우에 활용. ex) stock market volatility
- GDP같은 yearly data
에 대해 monthly data
를 yearly or quarterly data로 aggregating하는 대신 MIDAS regression을 통해 모델링할 수 있다.
- different sampling frequencies
이므로 autogressive model
이 아니다.
- 대신, MIDAS는 distributed lag model
과 변수를 공유하고 참신한 변수들을 갖는다.
- Yt and Xt(m)을 이용 --> efficiency
- equation
: simple linear MIDAS regression
: Yt=β0+B(L1/m)Xt(m)+ϵt(m)
: B(L1/m)=∑j=0jmaxB(j)Lj/m --> jmax 길이의 다항식
: Lj/mXt(m)=Xt−j/m(m): Lj/m(=j/m)만큼 시차가 있는 X
: 즉 yearly
변수 Yt를 quarterly
변수 Xt(m)에 jmax만큼의 시차까지 표현한 식
- The High frequency vairable
:
- The low frequency variable
: past market information(the tick-by-tick level)
: variable of interest
- stylized distributed lag model
- equation
:Yt=β0+B(L)Xt+ϵt
:B(L):lagpolinomialoperator
:X(m): sampled m times faster, m:lag
:Yt(m) and Xt(m)을 이용
distributed lag models
and MIDAS regression
비교
- feasible GLS
(computed using lagged dependent variable)
-특정 상황
하에서 Xt(m)을 통해 Yt를 예측할 때 발생하는 aggregation bias
는 사라진다는 결과를 제시
MIDAS regression
의 관심사
: 독립변수
가 frequently sampled되었을 때, 발생하는 discretization biases
를 파악
: distributed lag model
과 MIDAS
모두 m->0
으로 수렴할 때 discretization bias
는 0에 수렴
함
02 Why MIDAS Regressions?
MIDAS
는 tightly parameterized
, reduced form
regression 임
simple linear MIDAS regression
: Yt=β0+β1B(L1/m)Xt−1(m)+ϵt(m)
- B(L1/m)=∑j=0jmaxB(j)Lj/m --> jmax 길이의 다항식
- Lj/mxt=xt−j/m
- Lj/m : j/m만큼의 lag를 가진 xt를 만드는
연산자
MIDAS
는 많은 lag
을 활용해서 많은 파라미터를 요구함
- 파라미터를 줄이기 위해 여러 방법을 사용
03 MIDAS and Distributed Lag models: A Comparison
3.1 Aggregation Bias and Aliasing Revisited
- 다른
sampling frequency
를 가진 데이터를 사용할 때, 불가피하게 temporal aggregation
이 발생한다.
aggregation issue
에 대해 해당 논문에서는 다음 두가지를 가정했다.
1) underlying stochastic process
가 continuous time
에 따라 변한다
2) 데이터는 discrete points in times
에서 수집된다
--> observed data
가 sampling interval
에 독립
이다?
- Yt(m): 동일한 1/m 간격으로
discrete time
에서 샘플링된 값
- y(t):
continuous time
preocesses
discrete time distributed lag model
: Yt/m(m)=m1∑s=−∞∞B(m)(ms)X(t−s)/m(m)+Ut/m(m)
MIDAS regression
: Yt=m1∑s=−∞∞Bˉ(m)(ms)X(t−s)/m(m)+Ut
distributed lag model
은 Y와 X 모두 동일한 frequency
를 갖고, MIDAS
는 X만 high frequency
를 갖는다
- B(m)와 Bˉ(m)의 비교가 논문의 관심사 -->
OLS 추정치
를 사용
multiple regressor
의 경우 sampling frequencies
가 다를 때, temporal aggregation
시에 cross-regressor contamination(?)
이 발생할 수 있다.(Geweke, 1975)
--> 논문에서 single regressor
에 집중함
B(m) in a distributed lag model
minimize
해야하는 식 of B(m)
--> ∫−πmπm∣B~(m)(w)−b~(w)∣2Fm[Sx](w)
: Fm[Sx]의 가중치를 가진 L2-norm
으로 볼 수 있음.
: Sx: spectral density of continous sampled process
x(t)
and spectral density of discretely sampled process
x(t−s)/m
: Sx(m)≡Fm[Sx]
: B~(m)
- continuous sampling convolution polynomial
- Fourier transforms
of B(m)
: b~
- discrete sampling
- Fourier transforms
of b
--> continous sampling poylnomial
과 discrete sampling
오차를 최소화 시키기 때문에 discretization bias
를 감소시키는 효과가 있음
OLS estimator
: B~(m)=Fm[Sxb~]/Fm[Sx]=Fm[Syx]/Fm[Sx]
: Syx: cross-spectrum of continously sampled
y(t) and x(t)
exogenous variable
: model 외부에서 정의되는 변수
endogenous variable
: model 내부에서 정의되는 변수
ex) the supply of and demand for money determine the interest rate contingent on the level of the money supply, so the money supply is an exogenous variable
and the interest rate is an endogenous variable
.