코사인 유사도
- 두 벡터를 내적한 후 각각의 크기에 대해 나눈것이 일반화된 코사인값 정의다
- 원래 삼각함수는 직각삼각형의 기하학적 성질에서 부터 정의되기 시작한 것이지만, 다차원 벡터공간에서도 '각도'란 개념을 도입하기 위해서 반대로 내적이란 대수적 정의로부터 코사인을 정의함
- BoW에 기반하여 단어들을 수치화하는 방법들인 DTM, TF-IDF, Word2Vec 등을 활용하여 벡터로 표기한 후, 코사인 값을 구하여 두 벡터간의 유사도를 구할 수 있다
- 코사인 값이 1에 가깝다는 것은 벡터 방향이 비슷하다는 것이고, 벡터 방향이 비슷하다는 것은 벡터를 이루는 성분들의 비율이 비슷하다는 것이다.
- 예(뇌피셜): 만약 벡터와 벡터성분의 관계가 문서-단어의 관계라면 문서를 구성하고 있는 단어들의 비율이 유사하다는 것으로 볼 수 있다
자커드 유사도
- J(A,B)=∣A∪B∣∣A∩B∣=∣A∣+∣B∣−∣A∣∪∣B∣∣A∩B∣