K-means, k-modes, k-medoids

김나현·2024년 10월 11일
post-thumbnail

(요약 정리)

1) k-means : 유클리드 distance , centroid 사용

2) k-modes : Hamming distance , mode vector (가장 많이 나온) 사용

특징) k-means의 단점 중 하나인 카테고리컬한 데이터를 cover 가능.

hamming distance란 ?

mode vector간 서로 다른 갯수를 센다.
예를 들어 ) mode vector1 ( hot, coffee, winter ) , mode vector2 (hot, juice, summer) 이면 (0+1+1) = 2 이다.

둘간 거리가 다르면 1, 같으면 0 -> sum .

(다른 예시의 ) center 중심과 새로운 포인트 간 거리는
다르면 1, 같으면 1- 1/n 이다.

3) k-medoids : Gower's distance , 중간점 사용

특징) k-means의 단점 중 하나인 noise 을 잘 다루지 못한 다는 점을 보안.

Gower's Distance는 거리가 항상 0-1 사이이다.

k-means의 centroid는 non-exist 한 실제 있지 않은 점.
k-medoids는 있는 점들 중에서 center을 선택한다.

profile
Let's study hard!

0개의 댓글