- 언어모델 : 단어 시퀀스(문장)에 확률을 할당하는 모델 (문장에대한 자연스러움,적절성 판단)
- Statistical Languagel Model, SLM : 통계에 기반한 언어모델,
최근에는 딥러닝을 많이 사용하는 추세이다.
주어진 단어들로부터 아직 모르는 단어를 예측하는 작업.
단어시퀀스의 확률을 할당함으로써 확률이 높은 쪽으로 예측하게되는데,
예시로
a. 기계 번역(Machine Translation): 나는버스를 '__'
P(나는버스를탔다) > P(나는버스를태운다)
b. 오타 교정(Spell Correction) : 나는버스를 '__'
P(나는버스를탔다) > P(나는버스를캈다)
c. 음성 인식(Speech Recognition) : 나는버스를 '____'
P(나는버스를탔다) > P(나는버스를탇따)
가장 보편적인 방법
: 이전 단어들이 주어졌을 때 다음 단어를 예측
하나의 단어를 w, 단어 시퀀스을 W 라고 할 때 n개 단어가 등장하는 단어 시퀀스 W의 확률:
n-1개 단어가 나열된 상태의 n번째 단어의 확률 (| :조건부확률)