딥 러닝을 이용한 자연어처리 입문2. 언어모델(1)

정선용·2021년 8월 17일
0
post-thumbnail

1. 언어모델

  • 언어모델 : 단어 시퀀스(문장)에 확률을 할당하는 모델 (문장에대한 자연스러움,적절성 판단)
  • Statistical Languagel Model, SLM : 통계에 기반한 언어모델,
    최근에는 딥러닝을 많이 사용하는 추세이다.

2. 언어 모델링

주어진 단어들로부터 아직 모르는 단어를 예측하는 작업.

단어시퀀스의 확률을 할당함으로써 확률이 높은 쪽으로 예측하게되는데,
예시로
a. 기계 번역(Machine Translation): 나는버스를 '__'
P(나는버스를탔다) > P(나는버스를태운다)
b. 오타 교정(Spell Correction) : 나는버스를 '__
'
P(나는버스를탔다) > P(나는버스를캈다)
c. 음성 인식(Speech Recognition) : 나는버스를 '____'
P(나는버스를탔다) > P(나는버스를탇따)

3. 단어 시퀀스에 확률을 할당

가장 보편적인 방법
: 이전 단어들이 주어졌을 때 다음 단어를 예측

하나의 단어를 w, 단어 시퀀스을 W 라고 할 때 n개 단어가 등장하는 단어 시퀀스 W의 확률:

n-1개 단어가 나열된 상태의 n번째 단어의 확률 (| :조건부확률)

  • 조건부 확률: 뒷 사건이 일어났을 때, 앞사건이 일어날 확률
profile
정선용

0개의 댓글