비지도학습

김지예·2023년 4월 11일
0

☄️ 이 글은 유튜브 나도코딩의 영상을 기반으로 쓰여졌습니다!

비지도학습은 나비와 벌 사진을 보여주면서 뭐가 벌이고 나비인지 알려주지 않음

  • 정답이 없는 데이터를 통해
  • 데이터의 유의미한 패턴 / 구조 발견

Clustering 군집화

유사한 특징을 가지는 데이터들을 그룹화

예) 고객 세분화, 소셜 네트워크 분류, 기사 그룹 분류, ..

K-Means

데이터를 k 개를 클러스터(그룹)로 군집화하는 알고리즘,
각 데이터로부터 이들이 속한 클러스터의 중심점까지의 평균 거리를 계산

중심점 : Centroid
K : 나눌 갯수

K-Means 동작 순서
1. K값 설정
2. 지정된 K개 만큼의 랜덤 좌표 설정
3. 모든 데이터로부터 가장 가까운 중심점 선택
4. 데이터들의 평균 중심으로 중심점 이동
5. 중심점이 더 이상 이동되지 않을 때까지 반복

문제: Random Initialization Trap 2번째 순서인 랜덤 좌표 설정 - 매번 결과가 달라짐

위의 문제를 개선하기 위해,
K-Means++ 등장!

K-Means++ 동작 순서
1. 데이터 중에서 랜덤으로 1개를 중심점으로 선택
2. 나머지 데이터로부터 중심점까지의 거리 계산
3. 중심점과 가장 먼 지점의 데이터를 다음 증심점으로 선택
4. 중심점이 k 개가 될 때까지 반복
5. K-Means 전통적인 방식으로 진행

Elbow Method 엘보우 방법

  1. K 변화에 따른 중심점까지의 평균 거리 비교
  2. 경사가 완만해지는 지점의 K 선정
profile
배낭여행자 도로시, 주변을 살피며 걷는 중입니다. (소개글을 참고해 주세요 찡긋)

0개의 댓글