☄️ 이 글은 유튜브 나도코딩의 영상을 기반으로 쓰여졌습니다!
비지도학습은 나비와 벌 사진을 보여주면서 뭐가 벌이고 나비인지 알려주지 않음
유사한 특징을 가지는 데이터들을 그룹화
예) 고객 세분화, 소셜 네트워크 분류, 기사 그룹 분류, ..
데이터를 k 개를 클러스터(그룹)로 군집화하는 알고리즘,
각 데이터로부터 이들이 속한 클러스터의 중심점까지의 평균 거리를 계산
중심점 : Centroid
K : 나눌 갯수
K-Means 동작 순서
1. K값 설정
2. 지정된 K개 만큼의 랜덤 좌표 설정
3. 모든 데이터로부터 가장 가까운 중심점 선택
4. 데이터들의 평균 중심으로 중심점 이동
5. 중심점이 더 이상 이동되지 않을 때까지 반복
문제: Random Initialization Trap 2번째 순서인 랜덤 좌표 설정 - 매번 결과가 달라짐
위의 문제를 개선하기 위해,
K-Means++ 등장!
K-Means++ 동작 순서
1. 데이터 중에서 랜덤으로 1개를 중심점으로 선택
2. 나머지 데이터로부터 중심점까지의 거리 계산
3. 중심점과 가장 먼 지점의 데이터를 다음 증심점으로 선택
4. 중심점이 k 개가 될 때까지 반복
5. K-Means 전통적인 방식으로 진행