기초자연어처리-4.코사인유사도

milkbuttercheese·2023년 3월 6일
0

자연어처리기초

목록 보기
4/16

코사인 유사도

  • 두 벡터를 내적한 후 각각의 크기에 대해 나눈것이 일반화된 코사인값 정의다
    - 원래 삼각함수는 직각삼각형의 기하학적 성질에서 부터 정의되기 시작한 것이지만, 다차원 벡터공간에서도 '각도'란 개념을 도입하기 위해서 반대로 내적이란 대수적 정의로부터 코사인을 정의함
  • BoW에 기반하여 단어들을 수치화하는 방법들인 DTM, TF-IDF, Word2Vec 등을 활용하여 벡터로 표기한 후, 코사인 값을 구하여 두 벡터간의 유사도를 구할 수 있다
  • 코사인 값이 1에 가깝다는 것은 벡터 방향이 비슷하다는 것이고, 벡터 방향이 비슷하다는 것은 벡터를 이루는 성분들의 비율이 비슷하다는 것이다.
    - 예(뇌피셜): 만약 벡터와 벡터성분의 관계가 문서-단어의 관계라면 문서를 구성하고 있는 단어들의 비율이 유사하다는 것으로 볼 수 있다

자커드 유사도

  • J(A,B)=ABAB=ABA+BABJ(A,B)=\displaystyle\frac{|A\cap B|}{|A \cup B|}=\displaystyle\frac{|A\cap B|}{|A|+|B|- |A|\cup |B|}
profile
안녕하세요!

0개의 댓글