[TIL] 20210302_유사도 측정/단어임베딩

이석영·2021년 3월 2일

배운점

유사도 측정 알고리즘

  • 벡터들간의 유사도를 판단하는 방법

코사인(cosine) 유사도

  • N차원 공간에 있는 두 개의 벡터간의 각도(원점에서)를 보고 유사도를 판단하는 기준
  • 코사인 유사도 계산식

피어슨 상관계수(pearson correlation)

  • 평점처럼 방향뿐만 아니라 벡터 크기의 정규화가 중요하면 피어슨 유사도를 사용
  • 코사인 유사도의 개선버전
    • A와 B의 값들을 보정(벡터내 셀의 평균값을 후 각 셀에서 빼줌)
    • 그 후 계산은 코사인 유사도와 동일
  • 장점 : 모든 벡터가 원점을 중심으로 이동되고 벡터간의 비교가 더 쉬워짐, 정규화 효과

단어 임베딩(word embedding)

  • 텍스트를 행렬 또는 벡터로 표현하는 방법

BOW(bag of word)

  • 워드 임베딩 방법 중 가장 기본적인 방법
  • 문서들에 나타나는 단어수(N)에따라 Nx1의 벡터로 단어별 카운트하여 표현
  • 단순히 단어 빈도로 중요도를 가늠하기 어려움

TF-IDF(term freq-inverse document freq)

  • 한 문서에서 중요한 단어를 카운트가 아닌 문서군 전체를 보고 판단하자

  • 어떤 단어가 한 문서에서 자주나오면 중요하지만 이단어가 다른 문서에서는 잘 나오지 않는다면 더 중요하다고 볼수 있으리무리하지요

    • tf : 문서 또는 문장 내에서의 단어 빈도수
    • df : 해당 단어가 나오는 문서 또는 문장의 총 개수
    • N : 전체 문서 또는 문장 개수

      tf-idf score = tf x log(N/df)

  • 단점
    - 순서를 파악하기 어려움

    • 단어수, 문서수에따라 행렬(벡터) 사이즈가 커짐
    • 단어간 관계 파악이 어려움
profile
원하는 대로 살자

0개의 댓글