Transformers

이원준·2026년 4월 2일

NLP

목록 보기

7/9

1. NLP 발전 과정 한눈에 보기

연도	모델	의미
2014	RNN Seq2Seq	최초의 신경망 기계번역
2017	Transformer	"Attention is all you need" — 패러다임 전환
2018.06	GPT-1	사전학습 언어모델 등장
2018.11	BERT	양방향 사전학습 모델
2019.02	GPT-2	대규모 생성 모델
2020.05	GPT-3	1,750억 파라미터
2022.11	ChatGPT	GPT-3 기반 대화형 AI
2023	GPT-4, Bard	멀티모달 대형 언어모델
2024	GPT-4o, Gemini	더 크고 더 강력하게

💡 NLP Mountain: Transformer(2017)를 이해하면 이후 BERT, GPT, ChatGPT까지 모두 이해할 수 있습니다. Transformer가 현대 NLP의 출발점입니다.

2. LSTM의 한계 — 왜 Transformer가 등장했는가?

Transformer 이전에는 LSTM이 NLP의 표준이었습니다. 하지만 세 가지 근본적인 한계가 있었습니다.

① 기울기 소실 문제 (Vanishing Gradient)

100단어 문장을 LSTM으로 처리하면
→ 100층 깊이의 신경망을 통과하는 것과 같음
→ 역전파 시 기울기가 점점 작아져 앞쪽 단어 학습 불가

예시:
  "어릴 때부터 부산에서 자라고 부산 사투리로 말하며
   부산 음식을 좋아하고 대학도 부산에서 다녔기 때문에
   내 모국어는 당연히 [   ]이다"

  → LSTM은 멀리 있는 "부산"을 기억 못함
  → "한국어"라는 정답 예측 어려움

② 전이학습(Transfer Learning) 어려움

LSTM:
  감성분석 → 감성분석용 레이블 데이터 필요
  번역     → 번역용 레이블 데이터 필요
  요약     → 요약용 레이블 데이터 필요
  → 태스크마다 별도 labeled 데이터셋 필요

Transformer:
  대규모 텍스트로 한 번 사전학습
  → 여러 태스크에 fine-tuning으로 재사용 가능

③ 순차 처리 → GPU 비효율

LSTM:
  단어₁ → 단어₂ → 단어₃ → ... → 단어₁₀₀
  순서대로 처리 → 병렬화 불가 → GPU 낭비

Transformer:
  단어₁, 단어₂, ..., 단어₁₀₀ 동시 처리
  → 완전 병렬화 → GPU 100% 활용

3. Transformer 핵심 특징

💡 논문 제목: "Attention is All You Need" (Google, 2017)
RNN도 CNN도 없이 Attention 메커니즘만으로 seq2seq를 구현한 최초의 모델

주요 성과

학습 데이터: WMT2014 영어-독일어 번역 (1.6GB)
하드웨어:    P100 GPU 8개
학습 시간:   3.5일
결과:        BLEU Score SOTA (당시 최고 성능) 달성

Transformer vs LSTM 비교

항목	LSTM	Transformer
처리 방식	순차적 (Sequential)	병렬 (Parallel)
GPU 활용	낮음	매우 높음
장거리 의존성	약함 (기울기 소실)	강함 (Attention)
전이학습	어려움	용이함
구조	RNN 기반	Attention 기반

🏗️Transformer 구조

기존의 encoder-decoder 구조 유지합니다.

encoder : 문맥 의미를 파악하는 데에 유용 ex) BERT
decoder : text-generation → 글을 잘씀 ex) open ai

encoder-decoer의 층을 계속 쌓을 수 있어, 대량의 데이터만 충분히 공급되면 모델을 계속해서 키워나갈 수 있습니다..

image (31).png

단계	내용
Step 1	단어 → 512차원 숫자 벡터 변환 (Embedding)
Step 2	RNN이 없으니 순서대로 처리 불가 → sin/cos로 순서 정보 추가 (Positional Encoding)
Step 3	문장 내 단어 간 관련도 계산 (Self-Attention)
Step 4	8가지 시각으로 동시 분석 (Multi-Head Attention)
Step 5	Encoder↔Decoder 연결, 입력 참조 (Cross-Attention)
Step 6	미래 단어 차단하며 순차 생성 (Masked Attention)
Step 7	확률로 변환 후 다음 단어 선택 (Linear + Softmax)

4. Self-Attention — 문장 내 단어들의 관계 파악

🧠 Self-Attention이란?

Attention을 자기 자신에 대해 수행 → "문장 안에서 각 단어가 다른 단어들과 얼마나 관련이 있는가"를 계산하는 메커니즘

문장: "감독이 선수들에게 전술을 설명했다"

"전술"이라는 단어를 이해할 때:
  감독 ↔ 전술: 높은 연관성 (감독이 전술을 짬)
  선수들 ↔ 전술: 높은 연관성 (전술을 듣는 대상)
  설명했다 ↔ 전술: 높은 연관성 (전술을 설명)

→ "전술"의 의미를 문장 전체 맥락에서 파악

🔑 Query, Key, Value — 검색 엔진 비유

Self-Attention은 데이터베이스 검색과 유사합니다.

유튜브 검색 예시:
  Query:  "축구 하이라이트"      ← 내가 찾는 것
  Key:    각 영상의 제목/태그    ← 검색 인덱스
  Value:  실제 영상 내용         ← 반환될 결과

  Query와 모든 Key를 비교해서 유사도 계산
  → 유사도 높은 Value를 가중치 적용하여 반환

Self-Attention에서:
  Query:  현재 처리 중인 단어     ← "이 단어가 무엇과 관련있나?"
  Key:    문장 내 모든 단어       ← "나는 이런 단어야" 
  Value:  각 단어의 실제 정보     ← "관련 있으면 이 정보를 가져가"

📐 Self-Attention 4단계 계산

1단계: Q, K, V 벡터 생성

각 단어의 Embedding 벡터 (512차원)를
가중치 행렬 Wq, Wk, Wv와 곱해서
64차원의 Q(질문용), K(인덱스용), V(정보용) 벡터로 변환

512차원 → 64차원인 이유:
  512 / num_heads(8) = 64
  8개의 Head가 각각 64차원을 처리 

Wq, Wk, Wv는 학습 과정에서 자동으로 학습됨:
  처음에는 랜덤한 숫자로 초기화

  학습 데이터:
   입력: "나는 커피를 마셨다"
  정답: "I drank coffee"

  예측이 틀리면 → loss 계산
               → backpropagation
               → Wq, Wk, Wv 조금씩 업데이트

  수백만번 반복하면
    → 번역이 잘 되도록 Q, K, V를 만드는
      최적의 Wq, Wk, Wv 행렬이 완성됨

2단계: Attention Score 계산 (Scaled Dot Product)

모든 K vector에 대하여 attention score를 구함.

문장: "나는 커피를 마셨다"

"커피"에 대한 Attention Score 계산:
  나는    : Q_커피 · K_나는    = 3.2
  커피    : Q_커피 · K_커피    = 8.7  ← 자기 자신
  를      : Q_커피 · K_를      = 1.1
  마셨다  : Q_커피 · K_마셨다  = 5.4

Scaling: 각 score를 √64 = 8로 나눔
→ 기울기 소실 방지 (값이 너무 크면 softmax 후 기울기 ≈ 0)

3단계: Softmax로 Attention 분포 계산

Scaled Score를 Softmax로 변환 → 확률 분포

"커피"의 Attention 분포:
  나는   : 0.12
  커피   : 0.61  ← 가장 높음
  를     : 0.04
  마셨다 : 0.23
  합계   : 1.00

4단계: Value 벡터 가중합 → Attention Value

최종 "커피"의 Context Vector =
  0.12 × V_나는
+ 0.61 × V_커피
+ 0.04 × V_를
+ 0.23 × V_마셨다

→ 문장 전체 맥락이 반영된 "커피"의 새로운 표현(커피의 attention value : 단어에 대한 Context Vector)

정리

📊 수식 정리

Attention(Q, K, V) = softmax(Q·Kᵀ / √dₖ) · V

Q·Kᵀ  : Query와 모든 Key의 유사도 (내적)
√dₖ   : Scaling (dₖ = 64, √64 = 8)
softmax: 확률 분포로 변환
·V    : Value 벡터 가중합

🔢 행렬 연산으로 전체 문장 한번에 처리

입력: 4개 단어, 각 512차원
      X = [4, 512]

Q = X · Wq  →  [4, 64]
K = X · Wk  →  [4, 64]
V = X · Wv  →  [4, 64]

Attention = softmax(Q·Kᵀ/8) · V  →  [4, 64]

→ 4개 단어를 동시에 (병렬로) 처리!

5. Multi-Head Attention — 다양한 시각으로 바라보기

여러 개의 attention을 병렬로 사용한 후 Attention Head를 연결해서 다른 시각으로 단어 간의 상관 관계 파악합니다.

🎯 왜 Multi-Head인가?

하나의 Attention Head로 보는 것:
  "커피를 마셨다" → 동사-목적어 관계만 포착

여러 개의 Attention Head로 보는 것:
  Head 0: 문법적 관계 파악  (주어-동사)
  Head 1: 의미적 관계 파악  (커피-카페인)
  Head 2: 지시 관계 파악    (대명사-명사)
  ...
  Head 7: 시제 관계 파악    (과거-현재)

→ 단어 간 관계를 8가지 다른 시각에서 동시에 분석

⚙️ Multi-Head Attention 작동 방식

입력 (512차원)
    ↓
8개의 Head로 분할 (각 64차원)
    ↓
각 Head에서 독립적으로 Attention 계산
    ↓
8개 Head 결과 Concatenate → [seq_len, 512]
    ↓
최종 가중치 행렬 W₀와 곱함 → [seq_len, 512]

출력 크기가 입력과 동일한 이유

Transformer는 Encoder를 6개 쌓은 구조
→ 각 Encoder의 출력이 다음 Encoder의 입력으로 사용
→ 입력(512) = 출력(512)으로 유지되어야 함

📐 전체 계산 흐름

입력 문장: "스타트업 투자가 증가했다" (2단어 예시)

[2, 512]   입력 Embedding
    ↓
Q/K/V 행렬로 분할
    ↓
Head#0 [2, 64] — 주어-동사 관계
Head#1 [2, 64] — 시제 정보
...
Head#7 [2, 64] — 의미론적 관계
    ↓
Concatenate → [2, 512]
    ↓
× W₀ [512, 512] — Dense Layer 
    ↓
[2, 512]   최종 Multi-Head Attention 출력

💡 BERT와의 차이: BERT는 d_model=768, num_heads=12 (12×64=768) 사용

6. Position-wise Feed Forward NN(Dense Layer)

Encoder와 Decoder의 각각의 layer에서 보유하고 있습니다.

🏗️ 구조

Multi-Head Attention 출력 (seq_len, 512)
    ↓
Linear (512 → 2048)  +  ReLU
    ↓
Linear (2048 → 512)
    ↓
출력 (seq_len, 512)

💡 왜 필요한가?

Self-Attention: 단어들 간의 관계(상호작용) 학습
Feed Forward:   각 단어의 표현을 더 풍부하게 변환

비유:
  Self-Attention = 회의 (팀원들이 서로 정보 공유)
  Feed Forward   = 개인 학습 (각자 받은 정보를 내재화)

Position-wise의 의미

"Position-wise" = 단어별로 독립적으로 적용

입력: [단어1, 단어2, 단어3, 단어4]
→ 각 단어에 동일한 FFN을 독립적으로 적용
→ 단어들 간의 정보 교환 없음 (그건 Attention이 담당)

7. 잔차 연결 & 층 정규화 (Residual Connection & Layer Normalization)

Transformer는 서브층의 입력과 출력이 동일한 차원을 유지하므로 잔차 연결이 가능하기 때문에 Vanishing Gradient 문제를 해결할 수 있습니다.

🔗 잔차 연결 (Residual Connection)

일반 신경망:
  출력 = F(입력)

잔차 연결 (ResNet 방식):
  출력 = F(입력) + 입력
          ↑           ↑
        변환된 값  원래 값 그대로 더함

→ 학습이 잘 안 되더라도 원래 값(입력)은 보존
→ Vanishing Gradient 해결

직관적 이해

"새로운 것을 배우되, 이전 지식은 잊지 않는다"

예시:
  사전 지식: "커피는 음료다"
  새로운 학습: "커피는 카페인이 있다"

  잔차 연결 없이: 새로운 학습이 기존 지식을 덮어씀 → 기울기 소실 위험
  잔차 연결 있이: 기존 지식 + 새로운 학습 → 안정적인 학습

📏 층 정규화 (Layer Normalization)

각 층의 출력을 평균 0, 표준편차 1로 정규화

효과:
  학습 안정화
  더 빠른 수렴
  Internal Covariance Shift 해결

Encoder/Decoder 각 서브층 구조

입력
 ↓
[Multi-Head Attention 또는 FFN]
 ↓
Add (잔차 연결: + 입력)
 ↓
LayerNorm
 ↓
출력

참고: Vanishing Gradient 해결 방법들

방법	설명
ReLU 활성화 함수	`max(0, z)` — 양수 구간에서 기울기 = 1 유지
신중한 가중치 초기화	Xavier (Tanh용), He (ReLU용)
Batch Normalization	각 층 입력을 정규화
Residual Connection	입력을 출력에 직접 연결 (ResNet)

Batch Normalization이란?

문제 (Internal Covariance Shift):
  Layer를 거칠수록 입력 분포가 계속 변함
  → 최초 Input Layer가 표준 정규분포가 되도록 normalization 하는데 이 효과가 Hidden Layer를 거치면서 희석됨.

해결:
  각 층의 입력(전 단계의 output)을 평균 0, 표준편차 1로 정규화
  → 안정적인 분포 유지
  → 더 빠른 학습 가능

8. Positional Encoding — 위치 정보 추가하기

Embedding vector에 positional encoding 값을 추가해서 순서 정보를 추가해줍니다.

🗺️ 왜 필요한가?

LSTM: 단어를 순서대로 처리 → 위치 정보 자동 포함
Transformer: 모든 단어를 동시에 처리 → 위치 정보 없음!

문장: "고양이가 쥐를 잡았다"
      "쥐를 고양이가 잡았다"

→ Transformer는 두 문장을 같은 것으로 처리할 위험
→ 위치 정보를 별도로 추가해야 함

📐 Positional Encoding 수식

짝수 위치: PE(pos, 2i)   = sin(pos / 10000^(2i/d_model))
홀수 위치: PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

pos: 문장 내 단어의 위치 (0, 1, 2, ...)
i:   Embedding 벡터 내 차원의 인덱스
d_model: Embedding 차원 (512)

직관적 이해

각 위치마다 고유한 "위치 지문" 생성

위치 0: [sin(0), cos(0), sin(0), cos(0), ...]
위치 1: [sin(1), cos(1), sin(0.1), cos(0.1), ...]
위치 2: [sin(2), cos(2), sin(0.2), cos(0.2), ...]

→ 같은 단어라도 위치에 따라 다른 입력값을 가짐(positional encoding값이 추가되어서)
→ 신경망이 상대적 위치 관계를 쉽게 학습 가능

왜 sin/cos을 쓰는가?

정현파(sin/cos)의 특성:
  규칙적으로 반복되는 주기 함수
  → 신경망이 상대적 위치 패턴을 쉽게 학습
  → 학습 데이터보다 긴 문장도 처리 가능

예시:
  "음악의 박자"처럼 주기적인 패턴으로
  각 단어의 위치를 고유하게 표현

💡 BERT와의 차이: BERT는 수식 기반 Positional Encoding 대신 학습 가능한 Positional Embedding 사용

9. Decoder 구조

Decoder는 이전 출력 + Encoder 정보(문맥)를 이용해서 한 단어씩 생성하는 구조입니다.

1. Encoder가 문장 이해(Top Encoder의 output) → Key, Value 생성
2. Decoder는 이전 단어로 Query 생성
   -Training(학습): 정답 문장 (ground truth) 사용(treacher-forcing)
   -Inference(추론): 이전에 생성한 단어 사용(Auto-Regressive)
3. Encoder-Decoder Attention으로 중요한 부분 참고
4. 다음 단어 생성
5. 그 결과를 다시 입력으로 사용 (반복)

🏗️ Decoder의 3가지 서브층

Decoder = 3개 서브층으로 구성
  ① Masked Multi-Head Self-Attention
  ② Encoder-Decoder Attention (Cross-Attention)
  ③ Position-wise Feed Forward NN

① Masked Multi-Head Self-Attention(Encoder와 다른 부분)

왜 Masking이 필요한가?

번역 학습 예시:
  입력:  "나는 커피를 마셨다"
  목표:  "I drank coffee"

Decoder가 "drank"를 예측할 때:
  볼 수 있어야 할 것: "I" (이전 단어)
  보면 안 되는 것:    "coffee" (미래 단어) ← 치팅!

→ 미래 위치를 -∞로 Masking
→ Softmax 후 해당 위치의 확률 ≈ 0
→ 이전 위치만 참조 가능

Masking 행렬 예시 (4단어 출력):

        I    drank  coffee  <EOS>
I       0    -inf   -inf    -inf
drank   0      0    -inf    -inf
coffee  0      0      0     -inf
<EOS>   0      0      0       0

→ 각 단어는 자신과 이전 단어만 볼 수 있음

② Encoder-Decoder Attention (Cross-Attention)

Query:      Decoder의 하위 층에서 생성(이 부분만 다르고 나머지는 Encoder의 multi-headed attention과 동일하게 동작)
Key, Value: 최상위 Encoder의 출력에서 생성

→ Decoder가 입력 문장의 어느 부분에 집중할지 결정

예시:
  번역 중 "coffee"를 생성할 때
  → Query: "coffee" (Decoder)
  → Key/Value: "나는", "커피를", "마셨다" (Encoder)
  → "커피를"에 가장 높은 Attention → "coffee" 생성

③ 학습 vs 추론

학습 시 (Teacher Forcing):
  Decoder 입력 = 정답 레이블 (ground truth)
  → 모든 타임스텝 병렬 처리 가능

추론 시 (Auto-regressive):
  Decoder 입력 = 이전 스텝의 예측 결과
  → 순차적으로 한 단어씩 생성

10. Transformer 3가지 Attention 정리

종류	위치	Query	Key/Value	역할
Encoder Self-Attention	Encoder	Encoder 입력	Encoder 입력	입력 문장 내 단어 관계 파악
Masked Decoder Self-Attention	Decoder	Decoder 입력	Decoder 입력	출력 문장 내 이전 단어만 참조
Encoder-Decoder Attention	Decoder	Decoder	Encoder 출력	입력 문장의 어느 부분에 집중할지 결정

11. 핵심 하이퍼파라미터

변경해도되지만 연구자들이 잘나오는 값으로 정해둔 값입니다.

파라미터	값	의미
d_model	512	Embedding 벡터 크기, 모든 층 공통
num_layers	6	Encoder/Decoder 층 수
num_heads	8	Multi-Head Attention 병렬 헤드 수
d_ff	2048	FFN 은닉층 크기 (d_model × 4)
d_k = d_v	64	각 Head의 Q/K/V 차원 (512/8)

💡 BERT: d_model=768, num_heads=12, d_ff=3072 (768×4)

12. 전체 흐름 요약

🗺️ Transformer 전체 파이프라인

입력 문장: "오늘 날씨가 맑다"

① 단어 → Embedding 벡터 (512차원)
② + Positional Encoding (위치 정보 추가)
③ Encoder ×6:
    → Multi-Head Self-Attention (단어 간 관계 파악)
    → Add & LayerNorm
    → Position-wise FFN (단어 표현 풍부화)
    → Add & LayerNorm
④ Encoder 최종 출력 → Decoder의 K, V로 전달

⑤ 출력 시작 토큰 <BOS>
⑥ + Positional Encoding
⑦ Decoder ×6:
    → Masked Multi-Head Self-Attention (이전 출력만 참조)
    → Add & LayerNorm
    → Encoder-Decoder Attention (입력 문장 참조)
    → Add & LayerNorm
    → Position-wise FFN
    → Add & LayerNorm
⑧ Linear + Softmax → 다음 단어 확률
⑨ 가장 높은 확률의 단어 선택 (argmax)
⑩ <EOS>가 나올 때까지 반복

⚖️ 핵심 개념 비교

개념	핵심 아이디어	해결한 문제
Self-Attention	Q·K 유사도로 V 가중합	장거리 의존성
Multi-Head	여러 시각으로 병렬 Attention	다양한 관계 동시 파악
Positional Encoding	sin/cos으로 위치 정보 추가	순서 정보 소실
Residual Connection	출력 = F(x) + x	Vanishing Gradient
Layer Normalization	각 층 입력 정규화	학습 불안정
Masked Attention	미래 위치를 -∞로 설정	Decoder 치팅 방지

🎯 마무리 퀴즈

Q1. Transformer가 LSTM보다 빠른 이유는?

정답: LSTM은 단어를 순차적으로 처리하지만 Transformer는 모든 단어를 동시에 병렬 처리합니다. Attention 연산은 행렬 곱셈으로 GPU에서 한번에 처리됩니다.

Q2. Self-Attention에서 Scaling(√dₖ로 나누기)을 하는 이유는?

정답: Q·K의 내적값이 커질수록 Softmax의 기울기가 거의 0이 됩니다 (기울기 소실). √dₖ로 나눠 값을 작게 유지하면 Softmax가 더 균등한 분포를 가져 학습이 안정됩니다.

Q3. Decoder에서 Masking이 필요한 이유는?

정답: 학습 시 Decoder는 정답 전체를 입력받습니다. Masking 없이는 미래 단어를 보고 예측하는 치팅이 가능합니다. Masking으로 현재 위치 이전 단어만 참조하게 강제합니다.

Q4. Positional Encoding이 필요한 이유는?

정답: Transformer는 모든 단어를 동시에 처리하므로 순서 정보가 없습니다. sin/cos 함수로 각 위치마다 고유한 벡터를 생성하여 Embedding에 더해줍니다.

이원준

이전 포스트

Seq2Seq로 한국어 감성 챗봇 만들기 — Greedy vs Beam Search 비교 실험

다음 포스트