기본구조
Attention 방향
사전학습 목표
위치 정보
토크나이저
입출력 형태
강점
한계
BERT(Encoder-only)
1. 입력 토큰 + 세그먼트/포지션 임베딩 → 양방향 self-attention 반복.
2. 출력 은닉표현을 태스크 헤드에 연결:
• 문장/문서 분류: [CLS] 벡터 → Linear → Softmax
• 토큰 분류(NER): 각 토큰 벡터 → Linear → Softmax
• 추출형 QA: 시작/끝 위치 확률 분포 산출
• 임베딩(검색·클러스터링): 문장/문서 임베딩으로 사용
GPT(Decoder-only)
1. 입력 토큰 + 포지션 임베딩 → causal self-attention 반복.
2. 마지막 토큰의 로짓에서 다음 토큰 추출(그리디/빔/Top-k/Top-p 등).
3. 새 토큰을 붙여 반복 생성 → 문장·요약·대화·코드 등 자유 생성.
BERT가 유리한 작업 (판별·추출·임베딩)
• 문장/문서 분류(감성, 스팸, 주제)
• 토큰 단위 태깅(NER, 품사)
• 추출형 QA(본문에서 정답 span 찾기)
• 문장/문서 임베딩(검색, 유사도, 클러스터링, reranker의 cross-encoder)
• 규칙적 입력 → 고정 라벨 문제 전반(산업 현장 QA 라우팅, 인텐트 분류 등)
GPT가 유리한 작업 (생성·추론·조립)
• 자유 생성(요약, 문서 작성, 이메일/PRD/보고서 초안)
• 대화형 에이전트, 툴 호출, 코드 생성/수정
• 생성형 QA(오픈북·폐쇄북) — 실무에선 RAG와 결합 권장
• Few/Zero-shot 일반화(프롬프트 설계로 다수 태스크 처리)
