Bag of Words

minjun·2022년 3월 7일
0

NLP

목록 보기
2/5

bag of word - 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도에만 집중하는 텍스트 데이터의 수치화 표현 방법

  1. 단어사전 구축
    “John really really loves this movie“, “Jane really likes this song”
    {“John“, “really“, “loves“, “this“, “movie“, “Jane“, “likes“, “song”}

  2. one hot 벡터 화
    • John: [1 0 0 0 0 0 0 0]
    • really: [0 1 0 0 0 0 0 0]
    • loves: [0 0 1 0 0 0 0 0]
    • this: [0 0 0 1 0 0 0 0]
    • movie: [0 0 0 0 1 0 0 0]
    • Jane: [0 0 0 0 0 1 0 0]
    • likes: [0 0 0 0 0 0 1 0]
    • song: [0 0 0 0 0 0 0 1]
    모든 단어는 유클리디안 거리가 동일하다(8차원 공간에서 모두 루트2)
    코사인 유사도는 0으로 동일하다

bag of word = 문장 내 단어의 벡터를 모두 더한 것
John + really + really + loves + this + movie: [1 2 1 1 1 0 0 0]


NaiveBayes Classifier

argmax 𝑃 (𝑑|𝑐) 𝑃(𝑐)

profile
자라나라 머리머리

0개의 댓글