bag of word - 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도에만 집중하는 텍스트 데이터의 수치화 표현 방법
단어사전 구축
“John really really loves this movie“, “Jane really likes this song”
{“John“, “really“, “loves“, “this“, “movie“, “Jane“, “likes“, “song”}
one hot 벡터 화
• John: [1 0 0 0 0 0 0 0]
• really: [0 1 0 0 0 0 0 0]
• loves: [0 0 1 0 0 0 0 0]
• this: [0 0 0 1 0 0 0 0]
• movie: [0 0 0 0 1 0 0 0]
• Jane: [0 0 0 0 0 1 0 0]
• likes: [0 0 0 0 0 0 1 0]
• song: [0 0 0 0 0 0 0 1]
모든 단어는 유클리디안 거리가 동일하다(8차원 공간에서 모두 루트2)
코사인 유사도는 0으로 동일하다
bag of word = 문장 내 단어의 벡터를 모두 더한 것
John + really + really + loves + this + movie: [1 2 1 1 1 0 0 0]
NaiveBayes Classifier
argmax 𝑃 (𝑑|𝑐) 𝑃(𝑐)