Transformer와 Seq2Seq

Youngho LEE·2025년 8월 10일
post-thumbnail

Transformer 모델은 Seq2Seq 구조와 어떤 점에서 근본적으로 다른가요?

  • Transformer도 넓은 의미의 Seq2Seq(encoder–decoder)지만, 순환을 버리고 Self-Attention만으로 병렬화했다는 점이 근본적 차이이다.
  • 구조
    전통 Seq2Seq는 RNN(LSTM/GRU) 기반.
    Transformer는 RNN/Conv 없이 Self-Attention만 사용.

  • 학습/연산
    RNN은 토큰 순차 의존(병렬화 어려움).
    Transformer는 모든 토큰을 동시에 처리(대폭 병렬화).

  • 정보전달
    RNN은 고정 길이 벡터 병목(초기형)→Bahdanau/Luong 어텐션으로 완화
    Transformer는 매 층에서 전 범위(Self-Attention)로 장거리 의존성 포착.

  • 한계/트레이드오프
    Transformer는 길이 nn에 대해 O(n²) 메모리·시간(기본 어텐션) 부담.
    RNN은 이론상 O(n)이나 병렬화 불리.

차이 비교

항목전통 Seq2Seq (RNN 기반)Transformer
기본 블록RNN(LSTM/GRU) 인코더·디코더Multi-Head Self-Attention + FFN, Positional Encoding
순서 처리시간축 순차 전파(의존)토큰 간 의존을 행렬로 한 번에 계산(병렬)
병목/의존성초기엔 고정 벡터 병목(Sutskever’14) → 어텐션으로 완화(Bahdanau’15)매 층에서 전 범위 상호참조(자연스러운 장거리 의존 표출)
학습 속도순차 의존성 때문에 병렬화 제한GPU/TPU에서 대규모 병렬화훈련 시간 단축
복잡도(길이 n)단계별 O(n)이나 직렬 처리Self-Attention O(n²)(메모리/시간), 대신 고효율 병렬
순서 정보RNN 구조에 자연 내재Positional Encoding로 주입
스케일링대형 사전학습엔 비적합대규모 사전학습의 표준(LLM)
  • 데이터/자원 넉넉 & 긴 문맥 필요 → Transformer가 일반적으로 우세(사전학습·파인튜닝 생태계).
    arXiv
  • 스트리밍/지연 민감(실시간 음성 등) → RNN/Transducer류가 여전히 유리한 경우 존재(직렬 처리의 장점).
  • 아주 긴 시퀀스(수십만 토큰) → 기본 Transformer는 O(n²) 부담 → Sparse/Linear/Long-Range 변형을 고려.
profile
개발자

0개의 댓글