Cosine Distance

Heejin·2023년 5월 30일
0

Bigdata Analytics Glossary

목록 보기
12/22

Cosine distance는 벡터 간의 유사도를 측정하는 방법 중 하나이다. 두 개의 벡터 간의 각도를 사용하여 유사성을 측정하는 지표로, 벡터 공간에서의 방향을 고려한다.

두 개의 벡터 A와 B가 있다고 가정하겠다. 각 벡터의 크기가 0이 아니라고 가정하면, Cosine distance는 다음과 같이 정의된다:

Cosine distance(A, B) = 1 - (A • B) / (||A|| ||B||)

여기서 A • B는 벡터 A와 B의 내적(dot product)이며, ||A||와 ||B||는 각각 벡터 A와 B의 크기(노름)를 의미한다.

Cosine distance의 값은 -1과 1 사이에 있으며, -1에 가까울수록 두 벡터는 완전히 상반된 방향을 가지며, 1에 가까울수록 두 벡터는 비슷한 방향을 가진다. 0에 가까울수록 두 벡터는 직교(90도)에 가깝다는 것을 의미한다.

Cosine distance는 자연어 처리, 정보 검색, 추천 시스템 등 다양한 분야에서 사용된다. 특히, 텍스트 문서나 단어의 벡터 표현을 비교하고자 할 때, 문서 간의 유사도를 측정하는데 널리 활용된다.

0개의 댓글