대규모의 일반 텍스트 데이터셋에 여러 방법의 비지도학습을 활용하여 모델이 언어를 이해할 수 있는 특성을 부여한다.
Masked Language Modeling (BERT):입력 문장의 몇 단어를 마스킹하고, 이를 예측하도록 학습.
→ 양방향 학습을 통해 모델의 문맥 이해도가 높아짐.
Permutation Language Modeling (XLNet): BERT처럼 마스킹을 하는 대신, 토큰의 순서를 임의로 섞어가며 각 토큰을 예측.
→ BERT처럼 양방향 문맥을 활용하면서도 토큰의 순서를 고려하는 순차적인 예측 능력도 높아짐.
SpanBERT: 단일 토큰이 아니라, 연속된 여러 토큰(Span)을 마스킹하고, 그 경계 토큰으로 전체 빈칸을 복원하도록 학습.
→ 스팬 수준의 복원을 통해 언어에 대한 더 깊은 이해 가능.
방대한 양의 코퍼스를 학습하여 언어를 이해할 수 있게 된 모델에게 우리가 원하는 태스크를 한 번 더 학습시키큰 것. NER의 경우 추출하고 싶은 단어들을 레이블링 해 모델에 재학습시키는 등의 훈련이 이에 해당한다.
미세조정이 필요하지 않은 경우, 프롬프트(사용자가 모델에게 전달하는 명령어)를 기반으로 바로 사용할 수도 있으며, 프롬프트 내의 설명(In-Context)에 대한 모델의 답안을 즉석에서 학습 데이터로 쓰는 인컨텍스트 러닝(In-Context Learning)도 있다.
BERT(Bidirectional Encoder Representations from Transformers)는 양방향 문맥(bidirectional context)을 모두 활용한다.
Masked Language Modeling (MLM): 입력 문장에서 일정 비율(k%)의 토큰을 마스킹(mask)하고, 마스크된 단어를 예측하도록 학습.
Next Sentence Prediction (NSP): 두 문장이 연속되는지 여부를 예측. (후속 연구에서는 성능 저하 요인으로 지적됨)
큰 모델은 BERT-base(110M 파라미터)와 BERT-large(340M 파라미터)로 구성되며, 위키피디아·BooksCorpus를 수집해 수백만 스텝 학습시킨다.
장점: 양방향 문맥 이해 우수.
단점: 좌→우 생성(left-to-right generation)에 직접 사용하기 어려움. 즉, GPT처럼 문장을 생성해내는 성능이 떨어짐.
T5(Text-to-Text Transfer Transformer)는 모든 NLP 태스크를 “입력 텍스트 → 출력 텍스트” 형태로 통일해 학습.
pan Corruption (Denoising): 입력에서 임의 길이의 텍스트 스팬(span)을 <extra_id_i> 토큰으로 대체하고, 디코더가 원문 스팬을 복원하도록 학습.
대규모 C4(Clean Crawled Corpus, 750GB)를 사용하며, 모델 크기도 60M∼11B까지 다양하게 실험.
장점: 양방향 이해와 자유 생성 모두 가능, 멀티태스크 파인튜닝 친화적.
단점: 사전처리(preprocessing)·학습 복잡도 증가.
GPT(Generative Pre-trained Transformer)는 좌→우(auto-regressive) 방식으로 다음 토큰 예측(next-token prediction) 만을 목표로 학습한다.
VOCAB 크기의 분류(classification) 문제로 바라보고, 이전 토큰(prefix)들이 마스크드 셀프 어텐션이 적용된 디코더를 거쳐 다음 단어를 선택하도록 학습.
대규모 파라미터(수십억, 수천억)와 토큰(수백억, 조 단위)를 사용해 언어 생성 능력을 극대화한다.
장점: 텍스트 생성 능력에 탁월. 따로 파인튜닝이 필요 없이 바로 프롬프트로 소통 가능한 수준.
단점: 양방향 문맥 이해는 제한적이라 정확한 문장 이해가 어려움. 할루시네이션 등 허위 정보를 생성해냄.
| 모델 이름 | 파라미터 수 | 단위 | 규모 분류 | 권장 학습 토큰 수 |
|---|---|---|---|---|
| GPT-2 | 1.5 B | B = 10⁹ | 중규모(Medium) | 1.5 B × 1.7 ≈ 2.55 B tokens |
| GPT-3 | 175 B | B = 10⁹ | 대규모(Large) | 175 B × 1.7 ≈ 297.5 B tokens |
| LLaMA-2 (7 B) | 7 B | B = 10⁹ | 중규모(Medium) | 7 B × 1.7 ≈ 11.9 B tokens |
| LLaMA-2 (70 B) | 70 B | B = 10⁹ | 대규모(Large) | 70 B × 1.7 ≈ 119 B tokens |
| (예시) 초소형 모델 | 110 M | M = 10⁶ | 소규모(Small) | 0.11 B × 1.7 ≈ 0.187 B (187 M) tokens |