Language Model

이승준·2024년 10월 7일

Language Model (LM)

문장의 확률을 나타낸 모델
- 문장 자체의 출현 확률 예측
- 다음 단어를 예측 : 인간도 가장 나올 확률이 높은 단어를 선택해 문장을 완료한다

빈칸에 들어갈 가장 적절한 말은?
안녕하세요, _________
1. 으아악!
2. 반갑습니다.
3. 꿿돲숗

LM 의 궁극적인 목표는 우리가 사용하는 언어의 문장 분포를 정확하게 모델링 하는 것.

$\hat{\theta} = \arg\max_{\theta \in \Theta} \sum_{i=1}^{N} \log P(x_{1:n}^i; \theta)$

문장이 들어있는 dataset 을 corpus 라고 한다 : $D=\{x^i\}^N_{i=1}$
단어들이 순차적으로 등장해 구성하는 문장이 corpus 내의 문장을 만들 확률을 최대화하는 것이 목적.
- $P(x_{1:n}^i; \theta)$ 는 어떤 sequence $x^i$ 가 등장할 확률
LM은 이를 위한 매개변수 ( $w,b$ -> $\theta$ ) 를 학습한다
- $\theta$ 는 모델 파라미터, $\Theta$ 는 가능한 파라미터 조합
단어들의 등장 확률(결합 확률)은 조건부확률로 나타내어진다.
위 수식을 LM에 적용해보자
이를 덧셈으로 나타내는 것이 편하기 때문에 log 를 취하기도 한다

$\log P(x_{1:n}) = \sum_{i=1}^{n} \log P(x_i \mid x_{<i})$
위 수식을 실제 문장에 적용해보자
문장 구분을 위해 앞뒤로 토큰을 붙인다
<BOS> : Beginning of Sentence
* <EOS> : End of Sentence
문장의 시작은 항상 <BOS> 이기 때문에, P(<BOS>) 는 1이다.
반면, 문장이 언제 끝나는지는 모르기 때문에 P(<EOS>) 는 1이 아니다.

원시적인 자연어 생성 모델
Encoder (초록색) 에서 문장의 문맥을 담은 context vector 를 생성
context vector 는 Decoder (주황색)에 전달된다.
- 이 때, context vector 의 길이가 decoder 의 $h_0$ 즉, 첫 상태가 된다.
Decoder 는 이 문맥을 기반으로 결과물을 도출한다.

Encoder로 부터 받아낸 Context Vector를 토대로 문장을 생성
decoder 의 입력은 다음과 같다
encoder 와 같은 형태
$y_0$ = <BOS> , $y_n$ = <EOS>
encoder 는 bidirectional 이 가능하지만, decoder 는 안된다
* decoder 는 문장을 순차적으로 생성해야 하기 때문이다.