




비지도 학습
-> 군집 Clustering : 비슷한 샘플을 모음
-> 이상치 탐지 Outier detection : 정상 데이터가 어떻게 보이는지 학습, 비정상 샘플을 감지
-> 밀도 추정 : 데이터셋의 확률 밀도 함수 Probability Density Function PDF를 추정. 이상치 탐지 등에 사용
K-Means
-> 군집화에서 가장 일반적인 알고리즘
-> 군집 중심(centroid)이라는 임의의 지점을 선택해서 해당 중심에 가장 가까운 포인트들을 선택하는 군집화
-> 일반적인 군집화에서 가장 많이 사용되는 기법
-> 거리 기반 알고리즘으로 속성의 개수가 매우 많을 경우 군집화의 정확도가 떨어짐
원리
-> 초기 중심점을 설정
-> 각 데이터는 가장 가까운 중심점에 소속 - 중심점에 할당된 평균값으로 중심점 이동
-> 각 데이터는 이동된 중심점 기준으로 가 장 가까운 중심점에 소속
-> 다시 중심점에 할당된 데이터들의 평균 값으로 중심점 이동
-> 데이터들의 중심점 소속 변경이 없으면 종료


군집 결과의 평가
-> 분류기와 달리 평가 기준(정답)이 없음
-> 군집 결과 평가를 위해 실루엣 분석 활용
실루엣 분석
-> 각 군집 간의 거리가 얼마나 효율적으로 분리되어 있는지 나타냄
-> 다른 군집과는 거리가 떨어져 있고 동일 군집간의 데이터는 서로 가깝게 잘 뭉쳐 있는지 확인
-> 군집화가 잘 되어 있을 수록 개별 군집은 비슷한 정도의 여유공간을 가지고 있음
-> 실루엣 계수: 개별 데이터가 가지는 군집화 지표


n=2인 경우

n=3인 경우

n=4인 경우

이 글은 제로베이스 강의 자료 일부를 발췌하여 작성되었습니다