군집
: 타깃이 없는, 비슷한 샘플끼리 그룹으로 모으는 작업
cluster
: 군집 알고리즘에서 만든 그룹
평균 자동 생성(과일 평균).
적절한 k값 찾기?
inertia
의 변화 관찰 (inertia
의 감소폭이 무의미할 때 )데이터를 잘 대표하는 일부 특성을 선별하여 데이터 크기를 줄이고 다른 알고리즘에 재사용함으로 학습 모델의 성능 향상시키거나 훈련 속도를 가속화
차원
: = 특성; 데이터가 가진 속성
분산이 큰 방향을 찾는 것.
= 【 주성분
; 데이터를 잘 표현하는 어떤 vector 】 찾기.
- 방법 ) 차원의 수, 즉 특성 개수만큼 계속 주성분을 찾아나가는데, 직전 벡터에 수직이고 분산이 가장 큰 벡터를 찾아나가는 식이다.
- logistic 회귀 모델 따위의 알고리즘과도 함께 사용 가능하다.
용어
설명된 분산
:
주성분이 원본 데이터의 분산을 얼마나 잘 나타내는지 기록한 값
PCA class
:
자동으로 설명된 분산을 계산하여 제공
분산 비율을 설정하여 원하는 비율만큼 주성분 찾을 수 있음
변환된 data에서 원본 data를 복원하는 method 제공