Transformer와 LSTM의 작동 방식 차이

Ann Jongmin·2025년 2월 4일

Transformer

목록 보기
2/7

Transformer

Transformer는 일반적으로 encoder-decoder 아키텍처를 사용하며, 예측 시에는 한 개의 초기 시퀀스를 바탕으로 autoregressive하게 한 스텝씩 미래 값을 생성한다. 이 rollout 방식은 Transformer의 구조상 디코더에 이전 예측 결과를 입력으로 주어 순차적으로 출력하는 방식과 맞물린다.

Transformer를 이용해 미래 시점을 예측할 때, 보통 한 개의 초기 시퀀스(예: 최근 30일의 데이터)를 시작으로 사용한다.
이후 예측된 값을 입력 시퀀스에 추가해 업데이트하면서 한 단계씩 미래를 예측한다.
이 경우에는 처음에 주어진 입력 시퀀스가 그대로 시작점이 되고, 이후 단계에서는 이전 예측값이 입력에 합쳐져서 사용된다. 즉, 한 번의 rollout 예측에서는 단일 초기 시퀀스를 기반으로 연속적으로 업데이트된다.

LSTM

LSTM은 내부의 hidden state를 통해 시간 정보를 누적할 수 있지만, 평가나 예측 시에 흔히 슬라이딩 윈도우 방식으로 독립적인 시퀀스들을 구성하여 한 번에 여러 샘플을 처리한다. 이렇게 DataLoader를 활용하여 배치 단위로 평가하면, 모델이 각각의 입력 윈도우에 대해 독립적으로 예측을 수행하게 된다.

LSTM 모델의 경우에는 테스트 데이터셋을 여러 개의 독립적인 시퀀스로 구성할 수 있다.
예를 들어, DataLoader로 만들어진 테스트셋에서는 각각의 시퀀스가 입력-타깃 쌍으로 독립적으로 구성되어 있어서,
모델은 매번 새로운 시퀀스(데이터셋에 있는 여러 샘플)를 받아서 예측을 수행한다.
이때는 각 시퀀스마다 입력이 달라지므로, 평가 시에 "입력 시퀀스가 매번 바뀐다"고 볼 수 있다.

profile
AI Study

0개의 댓글