BERT는 언어를 양방향 Transformer 인코더로 사전학습하여, 문장을 과제별로 해석하지 않고도 ‘이해 가능한 표현’으로 인코딩할 수 있음을 보인 연구로, 이후 모든 인코더 중심 AI 모델의 출발점이 되었다.
BERT 이전 NLP의 주류는 다음과 같았다:
대표적으로:
문제는 명확했다:
“언어를 task마다 다르게 ‘처리’해야 하는가,
아니면 한 번 ‘잘 이해’해두면 되지 않는가?”
BERT의 핵심 문제의식은 바로 이것이다:
“문장의 의미를 범용적으로 인코딩할 수 있다면,
이후의 태스크는 얇은 head만으로 해결 가능하지 않을까?”


BERT는 Transformer Encoder만으로 구성된 모델이다.
Text → Token Embedding + Segment Embedding + Position Embedding
→ Transformer Encoder (L layers)
→ Task-specific Head (fine-tuning 시)
👉 오직 “이해(encoding)”에만 집중
BERT의 가장 중요한 선택은 다음이다:
언어 모델을 “생성기”가 아니라
“이해를 위한 인코더”로 정의했다
이는 이후 모든 흐름의 출발점이 된다.
BERT는 다음 질문에 답한다:
“이 문장은 무엇을 의미하는가?”
이지,
“다음 단어는 무엇인가?”
가 아니다.
BERT는 두 가지 사전학습 과제를 사용한다:
[MASK]로 가림👉 완전한 bidirectional context 사용
BERT는 언어 구조를 하드코딩하지 않는다.
대신 다음을 선택한다:
| 요소 | 역할 |
|---|---|
| Tokenization | 언어의 최소 단위 정의 |
| MLM objective | 의미 정렬 강제 |
| Bidirectional attention | 전역 문맥 통합 |
👉 Bias는 구조가 아니라 학습 목표(objective)에 존재
이는 우리가 CLIP에서 본 구조와 정확히 동일하다.
BERT는 언어를 “이해”한다고 말할 수 있을까?
BERT는:
그럼에도 불구하고 BERT는 downstream task에서 강력하다.
이유는 하나다:
BERT의 ‘이해’는
언어를 문제 해결에 유용한
표현 공간으로 인코딩하는 데 있다
즉 BERT는:
이다.
BERT가 바꾼 가장 큰 패러다임은 이것이다:
“모든 태스크를 처음부터 학습하지 않는다”
대신:
이는 이후:
까지 그대로 계승된다.
논문은 분명히 보여준다:
👉 구조보다 스케일이 더 중요해지는 지점의 시작
BERT는 발표 당시:
등 거의 모든 NLP benchmark에서 SOTA 달성.
하지만 더 중요한 것은:
“이후 거의 모든 NLP 모델이
BERT 스타일을 기본값으로 채택했다”
는 사실이다.
BERT 이후 등장한 흐름:
그리고 더 나아가:
👉 이 한계가 GPT 계열, instruction tuning, LLM으로 이어진다.
BERT는 언어를 생성하는 모델이 아니라, 언어를 Transformer 친화적인 의미 표현으로 인코딩하는 모델로, 대규모 사전학습을 통해 ‘이해 가능한 표현’을 만들어낼 수 있음을 증명하며 이후 모든 인코더 기반 AI 모델의 출발점이 된 연구다.
| 모델 | 역할 |
|---|---|
| BERT | Text → 의미 표현 |
| ViT | Image → 의미 표현 |
| CLIP | 의미 표현 간 정렬 |
| LLaVA | 의미 표현 → 추론 |
👉 모든 흐름의 시작은 BERT의 “인코더화(encodification)”