Transformer와 Seq2Seq

Youngho LEE·2025년 8월 10일

Seq2Seq transformer

Transformer 모델은 Seq2Seq 구조와 어떤 점에서 근본적으로 다른가요?

Transformer도 넓은 의미의 Seq2Seq(encoder–decoder)지만, 순환을 버리고 Self-Attention만으로 병렬화했다는 점이 근본적 차이이다.

구조
전통 Seq2Seq는 RNN(LSTM/GRU) 기반.
Transformer는 RNN/Conv 없이 Self-Attention만 사용.
학습/연산
RNN은 토큰 순차 의존(병렬화 어려움).
Transformer는 모든 토큰을 동시에 처리(대폭 병렬화).
정보전달
RNN은 고정 길이 벡터 병목(초기형)→Bahdanau/Luong 어텐션으로 완화
Transformer는 매 층에서 전 범위(Self-Attention)로 장거리 의존성 포착.
한계/트레이드오프
Transformer는 길이 $n$ 에 대해 O(n²) 메모리·시간(기본 어텐션) 부담.
RNN은 이론상 O(n)이나 병렬화 불리.

차이 비교

항목	전통 Seq2Seq (RNN 기반)	Transformer
기본 블록	RNN(LSTM/GRU) 인코더·디코더	Multi-Head Self-Attention + FFN, Positional Encoding
순서 처리	시간축 순차 전파(의존)	토큰 간 의존을 행렬로 한 번에 계산(병렬)
병목/의존성	초기엔 고정 벡터 병목(Sutskever’14) → 어텐션으로 완화(Bahdanau’15)	매 층에서 전 범위 상호참조(자연스러운 장거리 의존 표출)
학습 속도	순차 의존성 때문에 병렬화 제한	GPU/TPU에서 대규모 병렬화로 훈련 시간 단축
복잡도(길이 n)	단계별 O(n)이나 직렬 처리	Self-Attention O(n²)(메모리/시간), 대신 고효율 병렬
순서 정보	RNN 구조에 자연 내재	Positional Encoding로 주입
스케일링	대형 사전학습엔 비적합	대규모 사전학습의 표준(LLM)

데이터/자원 넉넉 & 긴 문맥 필요 → Transformer가 일반적으로 우세(사전학습·파인튜닝 생태계).
arXiv
스트리밍/지연 민감(실시간 음성 등) → RNN/Transducer류가 여전히 유리한 경우 존재(직렬 처리의 장점).
아주 긴 시퀀스(수십만 토큰) → 기본 Transformer는 O(n²) 부담 → Sparse/Linear/Long-Range 변형을 고려.

개발자

이전 포스트

Attention 메커니즘과 Seq2Seq 모델

다음 포스트

BERT와 GPT

0개의 댓글