BERT와 GPT

Youngho LEE·2025년 8월 24일

기본구조

  • BERT : Transformer 인코더 (Encoder-only)
  • GPT : Transofrmer 디코더 (Decoder-only)

Attention 방향

  • BERT : 양방향(Bidirectional) : 토큰 양옆 문맥 모두 사용
  • GPT : 단뱡향(Unidirectional, Causal Mask) : 왼쪽 문맥만 사용

사전학습 목표

  • BERT : MLM(Masked Language Modeling), NSP(Next Sentence Prediction)
  • GPT : Autoregressive LM (다음 토큰 예측)

위치 정보

  • BERT : 보통 Absolute Positional Embedding
  • GPT : 모델에 따라 Absolute / Rotary(ROPE) 등

토크나이저

  • BERT : WordPiece (ex: BERT-base)
  • GPT : BPE (ex: GPT-2/3계열)

입출력 형태

  • BERT : 입력 전체 → 은닉표현(문장/토큰 임베딩) 산출
  • GPT : 왼→오른쪽으로 토큰을 순차 생성

강점

  • BERT : 분류/추출/임베딩 정확도 높음, 문맥 이해 강함
  • GPT : 생성 능력 강함, 프롬프팅,Few/Zero-shot 우수

한계

  • BERT : 자연스러운 길이 있는 생성은 약함
  • GPT : 정확한 추출/판별은 추가 기법(툴/RAG/랭커) 필요

표현 방식의 차이

  • BERT: 입력의 모든 토큰이 서로를 동시에 바라보는 양방향 self-attention으로 깊이 있는 문맥 임베딩을 만든 뒤, 그 표현을 활용해 분류/추출을 수행한다.
  • GPT: 과거 토큰만 보도록 causal mask를 씌운 자기회귀(next-token) 모델로 자연스러운 텍스트 생성에 특화되어 있다.

기본 작동 방식

BERT(Encoder-only)
1. 입력 토큰 + 세그먼트/포지션 임베딩 → 양방향 self-attention 반복.
2. 출력 은닉표현을 태스크 헤드에 연결:

•	문장/문서 분류: [CLS] 벡터 → Linear → Softmax
•	토큰 분류(NER): 각 토큰 벡터 → Linear → Softmax
•	추출형 QA: 시작/끝 위치 확률 분포 산출
•	임베딩(검색·클러스터링): 문장/문서 임베딩으로 사용

GPT(Decoder-only)
1. 입력 토큰 + 포지션 임베딩 → causal self-attention 반복.
2. 마지막 토큰의 로짓에서 다음 토큰 추출(그리디/빔/Top-k/Top-p 등).
3. 새 토큰을 붙여 반복 생성 → 문장·요약·대화·코드 등 자유 생성.

어떤 응용에 적합한가?

BERT가 유리한 작업 (판별·추출·임베딩)
• 문장/문서 분류(감성, 스팸, 주제)
• 토큰 단위 태깅(NER, 품사)
• 추출형 QA(본문에서 정답 span 찾기)
• 문장/문서 임베딩(검색, 유사도, 클러스터링, reranker의 cross-encoder)
• 규칙적 입력 → 고정 라벨 문제 전반(산업 현장 QA 라우팅, 인텐트 분류 등)

GPT가 유리한 작업 (생성·추론·조립)
• 자유 생성(요약, 문서 작성, 이메일/PRD/보고서 초안)
• 대화형 에이전트, 툴 호출, 코드 생성/수정
• 생성형 QA(오픈북·폐쇄북) — 실무에선 RAG와 결합 권장
• Few/Zero-shot 일반화(프롬프트 설계로 다수 태스크 처리)

profile
개발자

0개의 댓글