Bag-of-Words와 Naive Bayes Classifier

MostlyFor·2023년 9월 10일

자연어처리

목록 보기

5/11

단어를 one-hot vector로 나타내어 이를 기반으로 문장과 문서를 표현하는 방법이다.

단어 : [0,0,0,1]

문장 : [1,2,3,1] ⇒ 들어간 단어 one hot vector 합

문서 : [51,31,41,23] ⇒ 들어간 문장 vector 합

현재 자주 쓰이는 word embedding 이전에 주로 쓰였던 방법으로 이 방법으로 언어모델, 즉 다음 단어를 추론하는 task를 할 땐 Naive Bayes Classifier를 이용할 수 있다.

여기서 P(c), 즉 해당 클래스가 나올 확률은 문서 전체에서 해당 클래스가 차지하는 확률을 따른다.

이 방법은 통계 기반이라 train set에서 한 번도 등장하지 않은 단어로 인해 모든 C에 대해 P(w|C)= 0 이 되기 때문에 argmax C를 할 수 없다.

이건 단순히 한 번도 나오지 않은 단어에 일정 확률을 할당해줌으로써 해결할 순 있다.