[머신러닝] K-Means/K-평균 알고리즘

cybergangster·2022년 6월 30일
0

Machine Learning

목록 보기
2/5
post-thumbnail
  • 비슷한 특성을 지닌 데이터들끼리 묶어 K개의 군집으로 군집화
  • 각 군집의 평균(mean)을 활용하여 K개의 군집으로 묶음
  • 군집의 중심점을 centroid라고 함

K-Means 알고리즘 원리1

K-Means 알고리즘 원리2


1) 군집수 K 설정하기

  • K-Menas 알고리즘의 한계점 중 하나는 군집의 개수 설정을 어떻게 하느냐에 따라 결과가 크게 달라지며 터무니 없는 결과가 나올 수도 있다는 것
  • 군집의 개수를 설정하는 방법 : Rule of thumb, Elbow Method, 정보 기준 접근법(Information Criterion Approach)
    2) 초기 중심점(Center of Cluster, Centroid) 설정하기
  • K-Means 알고리즘은 초기 중심점으로 어떤 값을 선택하는가에 따라 성능이 크게 달라지는 성질을 가지고 있음, 따라서 초기 중심값을 잘 설정해야 함
  • 중심값 설정하는 방법 : Randomly select, Manually assign, K-Means++
    (+) 랜덤하게 설정하거나 사람이 임의로 값을 설정해도 되지만 K-Means 알고리즘에서 실제 사용되는 초기 중심값 설정 방법은 K-Means++ 기법이라고 함
    3) 데이터를 군집에 할당/배정하기
  • 거리 상 가장 가까운 군집(중심점)으로 주어진 모든 데이터를 할당/배정함
    4) 중심점 재설정/갱신하기
  • 모든 주어진 데이터의 군집 배정이 끝나면 군집의 중심점(Centroid)을 그 군집에 속하는 데이터들의 가장 중간(평균)에 위치한 지점으로 재설정
    5) 데이터를 군집에 재할당/배정하기
  • 3)에서 했던 방법과 똑같이 시행하며, 더 이상 중심점의 이동이 없을 때까지 4)-5) 반복

0개의 댓글