다음 토큰(단어)을 예측할 때 오직 이전 토큰들만 참고하는 언어 모델이다. (Autoregressive Language Model) GPT 계열, Llama 계열, Qwen 계열 등 대부분의 현대 LLM이 이 방식을 사용한다.
토큰 를 예측할 때 미래 토큰 , 는 볼 수 없고 오직 과거 토큰만 볼 수 있기 때문. 미래가 현재에 형향을 줄 수 없다는 의미에서 "causal"이라는 이름이 붙었다.
Causal - '원인이 되는', '인과관계의'라는 뜻을 가진 형용사입니다. 어떤 사건이나 현상이 다른 것의 원인이 될 때 사용되며, 단순한 우연(상관관계)이 아닌 필연적인 작용을 설명할 때 주로 쓰인다.
Causal Mask (Attention Mask)를 사용
| 현재 토큰 | 볼 수 있는 토큰 |
|---|---|
| I | I |
| love | I, love |
| NLP | I, love, NLP |
| 특징 | Causal LM (GPT, Llama) | Masked LM (BERT) |
|---|---|---|
| 보는 방향 | 왼쪽 → 오른쪽 | 양방향 |
| 학습 목표 | 다음 토큰 예측 | 가려진 토큰 예측 |
| 생성 능력 | 매우 강함 | 약함 |
| 이해 능력 | 좋음 | 매우 좋음 |
| 구조 | Decoder-only | Encoder-only |