K-평균 알고리즘 동작방식 설명
- K-평균 알고리즘 : 타깃값이 없는 비지도학습의 하나로써 K개의 군집으로 유사한 특성을 지닌 데이터를 군집화(클러스터링) 하는 알고리즘
- 동작방식
- 사용자가 지정한 K의 갯수만큼 임의의 클러스터 중심을 지정한다.
- 각 클러스터 중심에 가까운 샘플을 군집화한다.
- 클러스터 중심을 다시 계산하여 중심을 이동한다.
- 클러스터 중심에 가까운 샘플을 군집화한다.(2번, 3번 반복)
- 클러스터에 중심의 변동이 없으면 반복 알고리즘을 종료한다.
주성분 분석
- 특성이 20개인 대량의 데이터셋이 있습니다. 이 데이터셋에서 찾을 수 있는 주성분의 갯수는 몇 개일까요?
- 주성분은 원본 차원과 같고 주성분으로 바꾼 데이터는 차원이 줄어들기 때문에 정답은 20 개
- 샘플 개수가 1,000개이고 특성 개수는 100개인 데이터셋이 있습니다. 이 데이터를 사이킷런의 PCA 클래스를 사용해 10개의 주성분으로 찾아 변환했습니다. 변환된 데이터셋의 크기는 얼마일까요?
- 각 샘플 원본데이터를 주성분에 투영하여 특성의 갯수를 줄이므로 샘플의 갯수는 그대로 1000개, 각 샘플별 특성의 갯수는 10개가 되므로 데이터셋의 크기는 (1000, 10)이 된다.
- 2번 문제에서 설명된 분산이 가장 큰 주성분은 몇 번째인가요?
- 주성분 분석은 가장 분산이 큰 방향부터 찾기에 첫번째 주성분 입니다.