개요
Language Model (LM)은 이전 단어(/문자/subword)를 기반으로 문장에서 다음에 올 단어(/문자/subword)를 예측하는 모델이다.
단어 시퀀스 w1,w2,…,wi−1이 주어졌을 때, 다음 단어 wi의 확률 분포 P(wi∣wi−1,…,w1)을 계산한다.
텍스트 자동완성, 검색어 입력 시 추천 등에서 사용한다.
n-grams
n-gram은 연속된 n개의 단어 조각을 의미한다. 예를 들어 'Students opened their notebooks'라는 문장이 있을 때, unigrams, bigrams, trigrams는 각각 다음과 같다.
- unigrams: Students, opened, their, notebooks
- bigrams: Students opened, opened their, their notebooks
- trigrams: Students opened their, opened their notebooks
일반적으로 n은 5 이하의 값을 사용한다.
n-gram Language Modeling
전체 시퀀스가 아닌 마지막 몇 개의 단어만 사용해 다음 단어를 예측한다. n-gram LM은 마지막 n−1개의 단어로 다음 단어를 예측한다. 예를 들어, Trigram LM은 아래와 같이 확률 분포를 계산한다.
P(wi∣w1,…,wi−1)=P(wi∣wi−1,wi−2)