BERT와 GPT

Youngho LEE·2025년 8월 24일

BERT GPT NLP

기본구조

BERT : Transformer 인코더 (Encoder-only)
GPT : Transofrmer 디코더 (Decoder-only)

Attention 방향

BERT : 양방향(Bidirectional) : 토큰 양옆 문맥 모두 사용
GPT : 단뱡향(Unidirectional, Causal Mask) : 왼쪽 문맥만 사용

사전학습 목표

BERT : MLM(Masked Language Modeling), NSP(Next Sentence Prediction)
GPT : Autoregressive LM (다음 토큰 예측)

위치 정보

BERT : 보통 Absolute Positional Embedding
GPT : 모델에 따라 Absolute / Rotary(ROPE) 등

토크나이저

BERT : WordPiece (ex: BERT-base)
GPT : BPE (ex: GPT-2/3계열)

입출력 형태

BERT : 입력 전체 → 은닉표현(문장/토큰 임베딩) 산출
GPT : 왼→오른쪽으로 토큰을 순차 생성

강점

BERT : 분류/추출/임베딩 정확도 높음, 문맥 이해 강함
GPT : 생성 능력 강함, 프롬프팅,Few/Zero-shot 우수

한계

BERT : 자연스러운 길이 있는 생성은 약함
GPT : 정확한 추출/판별은 추가 기법(툴/RAG/랭커) 필요

표현 방식의 차이

BERT: 입력의 모든 토큰이 서로를 동시에 바라보는 양방향 self-attention으로 깊이 있는 문맥 임베딩을 만든 뒤, 그 표현을 활용해 분류/추출을 수행한다.
GPT: 과거 토큰만 보도록 causal mask를 씌운 자기회귀(next-token) 모델로 자연스러운 텍스트 생성에 특화되어 있다.

기본 작동 방식

BERT(Encoder-only)
1. 입력 토큰 + 세그먼트/포지션 임베딩 → 양방향 self-attention 반복.
2. 출력 은닉표현을 태스크 헤드에 연결:

•	문장/문서 분류: [CLS] 벡터 → Linear → Softmax
•	토큰 분류(NER): 각 토큰 벡터 → Linear → Softmax
•	추출형 QA: 시작/끝 위치 확률 분포 산출
•	임베딩(검색·클러스터링): 문장/문서 임베딩으로 사용

GPT(Decoder-only)
1. 입력 토큰 + 포지션 임베딩 → causal self-attention 반복.
2. 마지막 토큰의 로짓에서 다음 토큰 추출(그리디/빔/Top-k/Top-p 등).
3. 새 토큰을 붙여 반복 생성 → 문장·요약·대화·코드 등 자유 생성.

어떤 응용에 적합한가?

BERT가 유리한 작업 (판별·추출·임베딩)
• 문장/문서 분류(감성, 스팸, 주제)
• 토큰 단위 태깅(NER, 품사)
• 추출형 QA(본문에서 정답 span 찾기)
• 문장/문서 임베딩(검색, 유사도, 클러스터링, reranker의 cross-encoder)
• 규칙적 입력 → 고정 라벨 문제 전반(산업 현장 QA 라우팅, 인텐트 분류 등)

GPT가 유리한 작업 (생성·추론·조립)
• 자유 생성(요약, 문서 작성, 이메일/PRD/보고서 초안)
• 대화형 에이전트, 툴 호출, 코드 생성/수정
• 생성형 QA(오픈북·폐쇄북) — 실무에선 RAG와 결합 권장
• Few/Zero-shot 일반화(프롬프트 설계로 다수 태스크 처리)

Youngho LEE

개발자

이전 포스트

Transformer와 Seq2Seq

다음 포스트

BERT와 GPT

표현 방식의 차이

기본 작동 방식

어떤 응용에 적합한가?

Transformer와 Seq2Seq

Hugging Face Transformers

0개의 댓글