LLM 사전학습

상솜공방·2025년 4월 23일

비전 언어 모델

목록 보기

4/9

대규모의 일반 텍스트 데이터셋에 여러 방법의 비지도학습을 활용하여 모델이 언어를 이해할 수 있는 특성을 부여한다.

Masked Language Modeling (BERT):입력 문장의 몇 단어를 마스킹하고, 이를 예측하도록 학습.
→ 양방향 학습을 통해 모델의 문맥 이해도가 높아짐.
Permutation Language Modeling (XLNet): BERT처럼 마스킹을 하는 대신, 토큰의 순서를 임의로 섞어가며 각 토큰을 예측.
→ BERT처럼 양방향 문맥을 활용하면서도 토큰의 순서를 고려하는 순차적인 예측 능력도 높아짐.
SpanBERT: 단일 토큰이 아니라, 연속된 여러 토큰(Span)을 마스킹하고, 그 경계 토큰으로 전체 빈칸을 복원하도록 학습.
→ 스팬 수준의 복원을 통해 언어에 대한 더 깊은 이해 가능.

방대한 양의 코퍼스를 학습하여 언어를 이해할 수 있게 된 모델에게 우리가 원하는 태스크를 한 번 더 학습시키큰 것. NER의 경우 추출하고 싶은 단어들을 레이블링 해 모델에 재학습시키는 등의 훈련이 이에 해당한다.

미세조정이 필요하지 않은 경우, 프롬프트(사용자가 모델에게 전달하는 명령어)를 기반으로 바로 사용할 수도 있으며, 프롬프트 내의 설명(In-Context)에 대한 모델의 답안을 즉석에서 학습 데이터로 쓰는 인컨텍스트 러닝(In-Context Learning)도 있다.

제로샷 러닝: 프롬프트에 태스크를 설명해주고 예시는 주지 않은 채, 모델이 학습한 지식만을 바탕으로 적절한 답을 내는지 평가하는 것.
퓨샷 러닝: 1~5개 정도의 예시 답안을 주고, 비슷한 태스크를 지시하는 것. 5개의 원어와 번역된 문장 페어를 주고, 다음 문장을 번역해달라고 요청하는 것이 예시에 해당한다.

BERT(Bidirectional Encoder Representations from Transformers)는 양방향 문맥(bidirectional context)을 모두 활용한다.
Masked Language Modeling (MLM): 입력 문장에서 일정 비율(k%)의 토큰을 마스킹(mask)하고, 마스크된 단어를 예측하도록 학습.
Next Sentence Prediction (NSP): 두 문장이 연속되는지 여부를 예측. (후속 연구에서는 성능 저하 요인으로 지적됨)
큰 모델은 BERT-base(110M 파라미터)와 BERT-large(340M 파라미터)로 구성되며, 위키피디아·BooksCorpus를 수집해 수백만 스텝 학습시킨다.
장점: 양방향 문맥 이해 우수.
단점: 좌→우 생성(left-to-right generation)에 직접 사용하기 어려움. 즉, GPT처럼 문장을 생성해내는 성능이 떨어짐.

T5(Text-to-Text Transfer Transformer)는 모든 NLP 태스크를 “입력 텍스트 → 출력 텍스트” 형태로 통일해 학습.
pan Corruption (Denoising): 입력에서 임의 길이의 텍스트 스팬(span)을 <extra_id_i> 토큰으로 대체하고, 디코더가 원문 스팬을 복원하도록 학습.
대규모 C4(Clean Crawled Corpus, 750GB)를 사용하며, 모델 크기도 60M∼11B까지 다양하게 실험.
장점: 양방향 이해와 자유 생성 모두 가능, 멀티태스크 파인튜닝 친화적.
단점: 사전처리(preprocessing)·학습 복잡도 증가.

GPT(Generative Pre-trained Transformer)는 좌→우(auto-regressive) 방식으로 다음 토큰 예측(next-token prediction) 만을 목표로 학습한다.
VOCAB 크기의 분류(classification) 문제로 바라보고, 이전 토큰(prefix)들이 마스크드 셀프 어텐션이 적용된 디코더를 거쳐 다음 단어를 선택하도록 학습.
대규모 파라미터(수십억, 수천억)와 토큰(수백억, 조 단위)를 사용해 언어 생성 능력을 극대화한다.
장점: 텍스트 생성 능력에 탁월. 따로 파인튜닝이 필요 없이 바로 프롬프트로 소통 가능한 수준.
단점: 양방향 문맥 이해는 제한적이라 정확한 문장 이해가 어려움. 할루시네이션 등 허위 정보를 생성해냄.

Kaplan et al.은 동일한 연산량을 놓고 비교했을 때, 학습 데이터를 늘리는 것보다, 모델의 크기를 키우는 것이 더 효과적이라고 결론지었다.
Hoffmann et al.은 Chinchilla 언어 모델을 제안할 당시, 학습 데이터셋의 토큰 수가 모델의 파라미터보다 약 1.7배 더 많아야 한다고 주장하였다.

Richard Sutton은 장기적으로 봤을 때 도메인 지식을 주입하는 방법보다, 더 큰 모델에 더 많은 학습 데이터를 쓰는 것이 궁극적인 성능 고도화를 이끈다고 주장하였다.

모델 이름	파라미터 수	단위	규모 분류	권장 학습 토큰 수
GPT-2	1.5 B	B = 10⁹	중규모(Medium)	1.5 B × 1.7 ≈ 2.55 B tokens
GPT-3	175 B	B = 10⁹	대규모(Large)	175 B × 1.7 ≈ 297.5 B tokens
LLaMA-2 (7 B)	7 B	B = 10⁹	중규모(Medium)	7 B × 1.7 ≈ 11.9 B tokens
LLaMA-2 (70 B)	70 B	B = 10⁹	대규모(Large)	70 B × 1.7 ≈ 119 B tokens
(예시) 초소형 모델	110 M	M = 10⁶	소규모(Small)	0.11 B × 1.7 ≈ 0.187 B (187 M) tokens