유사도에 대하여

Havi·2023년 10월 3일

유사도를 구하는 방법에 대해

유사도를 구하는 방법에는 내적과 코사인 유사도를 통한 방법이 있다.
이 두 방법들은 비교하는 두 벡터 A,B 가 얼마나 비슷한지를 구하는 방법들이다

코사인 유사도를 통한 유사도 방법은
두 벡터 A,B가 얼마나 벌어져있는지를 표현하며,
코사인 좌표계를 통해 벡터 A,B의 벌어진 각도를 통하여 코사인 값을 도출해 낸다.
(내적에선, 두 벡터간 내적값이 클수록 유사하다고 표현)

코사인 유사도와 내적은 한끝차이라고 한다.
내적 값을 각 벡터의 길이로 나누면 바로 코사인 유사도 값을 얻을 수 있다.
이러한 나눗셈덕에 내적은 벡터의 절대적길이에 영향을 받지만 코사인 유사도는 그렇지 않다고 한다.

그렇다면, 내적보다 코사인 유사도를 통해 계산하는 방법이 더 우월하냐? 하는 궁금증이 생긴다.

벡터의 크기가 비슷한 경우 내적은 벡터 간의 중첩정도 또는 상관 관계를 측정하는데 효과적일 수 있음.
이미지 처리 또는 신호 처리와 같은 다른 응용 프로그램에서는 내적이 유사성을 측정하는데 더 적합한 선택일 수 있다.
-> 이는 벡터의 크기가 유사성을 결정하는 데 더 중요한 역할을 할 수 있기 때문임