
Transformer 모델은 Seq2Seq 구조와 어떤 점에서 근본적으로 다른가요?
구조
전통 Seq2Seq는 RNN(LSTM/GRU) 기반.
Transformer는 RNN/Conv 없이 Self-Attention만 사용.
학습/연산
RNN은 토큰 순차 의존(병렬화 어려움).
Transformer는 모든 토큰을 동시에 처리(대폭 병렬화).
정보전달
RNN은 고정 길이 벡터 병목(초기형)→Bahdanau/Luong 어텐션으로 완화
Transformer는 매 층에서 전 범위(Self-Attention)로 장거리 의존성 포착.
한계/트레이드오프
Transformer는 길이 에 대해 O(n²) 메모리·시간(기본 어텐션) 부담.
RNN은 이론상 O(n)이나 병렬화 불리.
| 항목 | 전통 Seq2Seq (RNN 기반) | Transformer |
|---|---|---|
| 기본 블록 | RNN(LSTM/GRU) 인코더·디코더 | Multi-Head Self-Attention + FFN, Positional Encoding |
| 순서 처리 | 시간축 순차 전파(의존) | 토큰 간 의존을 행렬로 한 번에 계산(병렬) |
| 병목/의존성 | 초기엔 고정 벡터 병목(Sutskever’14) → 어텐션으로 완화(Bahdanau’15) | 매 층에서 전 범위 상호참조(자연스러운 장거리 의존 표출) |
| 학습 속도 | 순차 의존성 때문에 병렬화 제한 | GPU/TPU에서 대규모 병렬화로 훈련 시간 단축 |
| 복잡도(길이 n) | 단계별 O(n)이나 직렬 처리 | Self-Attention O(n²)(메모리/시간), 대신 고효율 병렬 |
| 순서 정보 | RNN 구조에 자연 내재 | Positional Encoding로 주입 |
| 스케일링 | 대형 사전학습엔 비적합 | 대규모 사전학습의 표준(LLM) |