데이터 분석 38일
| 방식 | 특징 | 예시 |
|---|---|---|
| 지도학습 | 답(정답)이 있는 상태에서 배우기 | 스팸메일인지 아닌지 알려주기 |
| 비지도학습 | 답 없이 데이터끼리 스스로 규칙 찾기 | 성격 비슷한 사람끼리 알아서 묶기 |
- 클러스터링 = 비지도학습 대표 선수
→ "군집화"라고도 불러.
→ 특징 비슷한 애들끼리 자동으로 묶어주는 기술!
고객의 나이, 구매 금액, 구매 주기 같은 정보가 쭉~ 들어 있는 데이터가 있다.
그런데 문제는... "누가 VIP인지, 누가 잠재고객인지 아무도 안 알려줌!"👉 이런 상황에서는 '정답(레이블)' 없이 데이터 자체를 보고 그룹을 나누는 것이 중요. <- 이게 바로 비지도 학습!(unsupervised learning)
그렇다면, 비슷한 속성을 가진 사람들끼리 자동으로 묶어주는 알고리즘이 필요.
바로 그게 클러스터링(군집 분석)!
1) 데이터 준비: 결측값, 이상치 제거하고 스케일 조정!
2) 알고리즘 선택: 어떤 방식으로 그룹을 나눌까?
3) 파라미터 설정: 군집 수나 거리 기준 등을 정함
4) 결과 평가: 그룹이 잘 나뉘었는지 확인!
5) 비즈니스에 적용: 그룹별 맞춤 전략 실행!
📦 예시:
- 고객을 3그룹으로 나누자 → 저가상품 선호, 중간 가격대, 고가브랜드 선호
🗺️ 예시:
- 지도에서 가게들이 몰려 있는 지역만 군집으로 인식 → 나머지는 '노이즈'
🌲 예시:
- 유전자 데이터를 트리처럼 묶어서 비슷한 특성 가진 그룹 찾기
라벨이 없으니 정확도 계산은 안 되고...
대신 내부 지표를 써야지!
📏 실루엣 계수(Silhouette Score)
📏 Davies-Bouldin Index
| 이름 | 핵심 원리 | 장점 | 단점 |
|---|---|---|---|
| K-means | 중심점을 기준으로 가까운 애들끼리 묶기 | 빠르고 간단 | k 직접 정해야 함, 이상치에 약함 |
| DBSCAN | 밀도가 높은 곳 기준으로 묶기 | 이상치 자동 처리, k 필요 없음 | eps 값 설정이 중요 |
| 계층적 클러스터링 | 유사한 애들끼리 차곡차곡 묶어 트리처럼 만듦 | 덴드로그램 시각화 가능 | 느림, 대규모 데이터에 비효율 |
📝 핵심 정리 한 줄씩