Causal Language Model (CLM)

Soogyung Gwon·2026년 5월 28일

구름을잡아라

목록 보기
62/76

Causal Language Model (CLM)

다음 토큰(단어)을 예측할 때 오직 이전 토큰들만 참고하는 언어 모델이다. (Autoregressive Language Model) GPT 계열, Llama 계열, Qwen 계열 등 대부분의 현대 LLM이 이 방식을 사용한다.

"Causal" 이라고 부르는 이유

토큰 xt{x_t}를 예측할 때 미래 토큰 xt+1{x_{t+1}}, xt+2{x_{t+2}} 는 볼 수 없고 오직 과거 토큰만 볼 수 있기 때문. 미래가 현재에 형향을 줄 수 없다는 의미에서 "causal"이라는 이름이 붙었다.

Causal - '원인이 되는', '인과관계의'라는 뜻을 가진 형용사입니다. 어떤 사건이나 현상이 다른 것의 원인이 될 때 사용되며, 단순한 우연(상관관계)이 아닌 필연적인 작용을 설명할 때 주로 쓰인다.

Transformer에서는 어떻게 쓰이나?

Causal Mask (Attention Mask)를 사용

현재 토큰볼 수 있는 토큰
II
loveI, love
NLPI, love, NLP

BERT와의 차이

특징Causal LM (GPT, Llama)Masked LM (BERT)
보는 방향왼쪽 → 오른쪽양방향
학습 목표다음 토큰 예측가려진 토큰 예측
생성 능력매우 강함약함
이해 능력좋음매우 좋음
구조Decoder-onlyEncoder-only

대표적인 Causal Language Models

  • GPT
  • Llama
  • Qwen
  • Mistral
  • Gemma
profile
오랜시간 망설였던 코딩을 다시 해보려고 노력하고 있는 사람

0개의 댓글