ch6. 비지도 학습

이은서·2022년 8월 1일

ml입문

ml 입문

목록 보기

8/9

비지도 학습

1. 군집 알고리즘

군집 : 타깃이 없는, 비슷한 샘플끼리 그룹으로 모으는 작업
cluster : 군집 알고리즘에서 만든 그룹

1-1. k-평균 알고리즘

평균 자동 생성(과일 평균).

cluster center = centroid
how? 먼저 랜덤하게 cluster center를 선택 ➡️ 점차 가장 가까운 샘플의 중심으로 이동
limitations : 실전에서는 cluster의 개수 k를 알 수 없음

적절한 k값 찾기?

elbow 방법
cluster 수를 늘려가며 inertia의 변화 관찰 (inertia의 감소폭이 무의미할 때 )
...

2. 차원 축소

데이터를 잘 대표하는 일부 특성을 선별하여 데이터 크기를 줄이고 다른 알고리즘에 재사용함으로 학습 모델의 성능 향상시키거나 훈련 속도를 가속화

차원 : = 특성; 데이터가 가진 속성

2-1. 주성분 분석 (PCA)

분산이 큰 방향을 찾는 것.
= 【 주성분 ; 데이터를 잘 표현하는 어떤 vector 】 찾기.

방법 ) 차원의 수, 즉 특성 개수만큼 계속 주성분을 찾아나가는데, 직전 벡터에 수직이고 분산이 가장 큰 벡터를 찾아나가는 식이다.

logistic 회귀 모델 따위의 알고리즘과도 함께 사용 가능하다.

용어
설명된 분산 :
주성분이 원본 데이터의 분산을 얼마나 잘 나타내는지 기록한 값
PCA class :
자동으로 설명된 분산을 계산하여 제공
분산 비율을 설정하여 원하는 비율만큼 주성분 찾을 수 있음
변환된 data에서 원본 data를 복원하는 method 제공

이은서

이전 포스트

ch5. 트리 알고리즘

다음 포스트