k-Means Algorithm

Heejin·2023년 5월 30일

Bigdata Analytics Glossary

목록 보기

5/22

k-Means 알고리즘은 비지도 학습(Unsupervised Learning) 알고리즘 중 하나로, 데이터 포인트들을 k개의 클러스터로 그룹화하는 방법이다. 클러스터는 유사한 특성을 가진 데이터 포인트들의 집합으로 이루어져 있다.

k-Means 알고리즘은 다음과 같은 단계로 동작한다:

초기화: 사용자는 클러스터의 개수 k를 지정하고, 데이터 포인트들 중에서 k개의 초기 중심(Centroid)을 임의로 선택한다.
할당: 각 데이터 포인트를 가장 가까운 중심에 할당한다. 이때 거리는 일반적으로 유클리드 거리(Euclidean distance)를 사용한다.
재할당: 중심에 할당된 데이터 포인트들을 기반으로 새로운 중심을 계산한다. 중심은 할당된 데이터 포인트들의 평균 위치로 이동한다.
2단계와 3단계를 반복: 데이터 포인트들의 할당과 중심의 재할당을 반복하면서 알고리즘을 수렴시킨다. 할당이 더 이상 변화하지 않을 때까지 반복한다.
알고리즘 종료: 할당이 더 이상 변화하지 않으면 알고리즘은 종료된다. 클러스터는 최종적으로 할당된 데이터 포인트들의 집합으로 형성된다.

k-Means 알고리즘은 클러스터링, 데이터 분석, 이미지 압축 등 다양한 분야에서 활용된다. 그러나 초기 중심의 선택과 클러스터의 개수에 따라 결과가 달라질 수 있으며, 이상치(Outlier)에 민감하게 반응할 수 있다는 한계도 있다.