LLM 사전학습

상솜공방·2025년 4월 23일

비전 언어 모델

목록 보기
4/9

1. LLM의 학습 방법

1.1 사전학습

대규모의 일반 텍스트 데이터셋에 여러 방법의 비지도학습을 활용하여 모델이 언어를 이해할 수 있는 특성을 부여한다.

  • Masked Language Modeling (BERT):입력 문장의 몇 단어를 마스킹하고, 이를 예측하도록 학습.
    → 양방향 학습을 통해 모델의 문맥 이해도가 높아짐.

  • Permutation Language Modeling (XLNet): BERT처럼 마스킹을 하는 대신, 토큰의 순서를 임의로 섞어가며 각 토큰을 예측.
    → BERT처럼 양방향 문맥을 활용하면서도 토큰의 순서를 고려하는 순차적인 예측 능력도 높아짐.

  • SpanBERT: 단일 토큰이 아니라, 연속된 여러 토큰(Span)을 마스킹하고, 그 경계 토큰으로 전체 빈칸을 복원하도록 학습.
    → 스팬 수준의 복원을 통해 언어에 대한 더 깊은 이해 가능.

1.2 미세조정

방대한 양의 코퍼스를 학습하여 언어를 이해할 수 있게 된 모델에게 우리가 원하는 태스크를 한 번 더 학습시키큰 것. NER의 경우 추출하고 싶은 단어들을 레이블링 해 모델에 재학습시키는 등의 훈련이 이에 해당한다.

미세조정이 필요하지 않은 경우, 프롬프트(사용자가 모델에게 전달하는 명령어)를 기반으로 바로 사용할 수도 있으며, 프롬프트 내의 설명(In-Context)에 대한 모델의 답안을 즉석에서 학습 데이터로 쓰는 인컨텍스트 러닝(In-Context Learning)도 있다.

  • 제로샷 러닝: 프롬프트에 태스크를 설명해주고 예시는 주지 않은 채, 모델이 학습한 지식만을 바탕으로 적절한 답을 내는지 평가하는 것.
  • 퓨샷 러닝: 1~5개 정도의 예시 답안을 주고, 비슷한 태스크를 지시하는 것. 5개의 원어와 번역된 문장 페어를 주고, 다음 문장을 번역해달라고 요청하는 것이 예시에 해당한다.

2. 트랜스포머 기반의 LLM 모델

2.1 인코더 기반 모델

  • BERT(Bidirectional Encoder Representations from Transformers)는 양방향 문맥(bidirectional context)을 모두 활용한다.

  • Masked Language Modeling (MLM): 입력 문장에서 일정 비율(k%)의 토큰을 마스킹(mask)하고, 마스크된 단어를 예측하도록 학습.

  • Next Sentence Prediction (NSP): 두 문장이 연속되는지 여부를 예측. (후속 연구에서는 성능 저하 요인으로 지적됨)

  • 큰 모델은 BERT-base(110M 파라미터)와 BERT-large(340M 파라미터)로 구성되며, 위키피디아·BooksCorpus를 수집해 수백만 스텝 학습시킨다.

  • 장점: 양방향 문맥 이해 우수.

  • 단점: 좌→우 생성(left-to-right generation)에 직접 사용하기 어려움. 즉, GPT처럼 문장을 생성해내는 성능이 떨어짐.

2.2 디코더 기반 모델

  • T5(Text-to-Text Transfer Transformer)는 모든 NLP 태스크를 “입력 텍스트 → 출력 텍스트” 형태로 통일해 학습.

  • pan Corruption (Denoising): 입력에서 임의 길이의 텍스트 스팬(span)을 <extra_id_i> 토큰으로 대체하고, 디코더가 원문 스팬을 복원하도록 학습.

  • 대규모 C4(Clean Crawled Corpus, 750GB)를 사용하며, 모델 크기도 60M∼11B까지 다양하게 실험.

  • 장점: 양방향 이해와 자유 생성 모두 가능, 멀티태스크 파인튜닝 친화적.

  • 단점: 사전처리(preprocessing)·학습 복잡도 증가.

2.3 인코더-디코더 기반 모델

  • GPT(Generative Pre-trained Transformer)는 좌→우(auto-regressive) 방식으로 다음 토큰 예측(next-token prediction) 만을 목표로 학습한다.

  • VOCAB 크기의 분류(classification) 문제로 바라보고, 이전 토큰(prefix)들이 마스크드 셀프 어텐션이 적용된 디코더를 거쳐 다음 단어를 선택하도록 학습.

  • 대규모 파라미터(수십억, 수천억)와 토큰(수백억, 조 단위)를 사용해 언어 생성 능력을 극대화한다.

  • 장점: 텍스트 생성 능력에 탁월. 따로 파인튜닝이 필요 없이 바로 프롬프트로 소통 가능한 수준.

  • 단점: 양방향 문맥 이해는 제한적이라 정확한 문장 이해가 어려움. 할루시네이션 등 허위 정보를 생성해냄.

2.4 LLM 모델의 학습

스케일링 법칙

  • Kaplan et al.은 동일한 연산량을 놓고 비교했을 때, 학습 데이터를 늘리는 것보다, 모델의 크기를 키우는 것이 더 효과적이라고 결론지었다.
  • Hoffmann et al.은 Chinchilla 언어 모델을 제안할 당시, 학습 데이터셋의 토큰 수가 모델의 파라미터보다 약 1.7배 더 많아야 한다고 주장하였다.

쓰라린 교훈

  • Richard Sutton은 장기적으로 봤을 때 도메인 지식을 주입하는 방법보다, 더 큰 모델에 더 많은 학습 데이터를 쓰는 것이 궁극적인 성능 고도화를 이끈다고 주장하였다.

LLM 모델 파라미터와 권장 학습 토큰 수

모델 이름파라미터 수단위규모 분류권장 학습 토큰 수
GPT-21.5 BB = 10⁹중규모(Medium)1.5 B × 1.7 ≈ 2.55 B tokens
GPT-3175 BB = 10⁹대규모(Large)175 B × 1.7 ≈ 297.5 B tokens
LLaMA-2 (7 B)7 BB = 10⁹중규모(Medium)7 B × 1.7 ≈ 11.9 B tokens
LLaMA-2 (70 B)70 BB = 10⁹대규모(Large)70 B × 1.7 ≈ 119 B tokens
(예시) 초소형 모델110 MM = 10⁶소규모(Small)0.11 B × 1.7 ≈ 0.187 B (187 M) tokens
  • M (Million): 10610^6 파라미터
  • B (Billion): 10910^9 파라미터
  • T (Trillion): 101210^{12} 파라미터
  • 소규모(Small): < 1 B 파라미터
  • 중규모(Medium): 1 B – 10 B 파라미터
  • 대규모(Large): > 10 B 파라미터
profile
상어 인형을 좋아하는 사람

0개의 댓글