-
소리,문자,주가 등 데이터를 시퀀스(sequence) 데이터로 분류
-
시계열(time-seies) 데이터는 시간 순서에 따라 나열된 데이터로 시퀀스 데이터에 속함
-
시퀀스 데이터는 독립동일분포(i.i.d) 가정을 위배하기 때문에 데이터 순서 변환, 과거 정보 손실 등이 발생 시 데이터 확률분포도 변함
- 과거 정보 또는 앞뒤 맥락 없이 미래를 예측하거나 문장을 완성하는 건 불가능
-
이전 시퀀스의 정보를 가지고 앞으로 발생할 데이터의 확률분포를 다루기 위해 조건부 확률을 이용
- P(X1,⋯Xt)=P(Xt∣X1,⋯,Xt−1)P(X1,⋯,Xt−1)=P(Xt∣X1,⋯,Xt−1)P(Xt−1∣X1,⋯,Xt−2)P(X1,⋯,Xt−2)=∏s=1tP(Xs∣Xs−1,⋯,X1)
- Xt∼P(Xt∣Xt−1,⋯,X1).
-
일반적으로 모든 데이터가 분석에 영향을 주는 것이 아닌 만큼 일정 데이터를 중점적으로 분석을 진행
-
만약, 이전의 일부 고정된 길이τ만큼 시퀀스만 사용하는경우 AR(τ)(Autoregressive Model) 자귀회귀 모델 이라고 함

-
반대로, 먼 미래의 정보를 다 사용하는 경우 이전 정보를 제외한 나머지를 Ht(잠재변수)로 인코딩하여 활용하는 모델을 잠재 AR모델 이라고 함
- 이 경우도 과거의 모든 데이터를 H와 바로 이전 정보 Xt로 하여 가변 길이의 정보를 고정 길이 문제 전환
- Ht=Netθ(Ht−1,Xt−1)
