머신러닝의 데이터의 특성은 대부분이 벡터의 형태로 표현됩니다. 이러한 벡터 간의 거리를 측정하는 방법론에 대해 고찰하여 봅시다. 가까우면 유사도가 높다, 멀면 유사도가 낮다고 판단할 수 있겠다는 점은 직관적으로 판단 가능하겠죠?
정리하자면
- Euclidean distance는 수치상의 절대적인 차이를 의미. 의 경우 데이터 차원의 영향을 많이 받기 때문에, 유사도 측정에 불안정하다.
- Cosine similarity는 방향과 크기의 상대적 차이를 의미. 각도와 관련되어 최대 크기가 1로 Normalize되어 있다.