미션
기본미션
K-평균 작동 방식
- 초기화: K개의 클러스터를 대표할 중심점을 무작위로 선택한다.
- 할당 : 각 데이터 샘플들을 가장 가까운 중심점에 할당한다. 보통 유클리드 거리같은 거리 측정 방법을 이용하여 가까움을 측정한다.
- 중심점 업데이트 : 클러스터에 속한 데이터 샘플들의 평균위치 값으로 새로운 데이터 중심점을 이동한다.
- 반복 : 클러스터의 중심점이 더이상 변하지 않거나, 설정한 반복횟수에 도달할 때까지 반복한다.
선택미션
Q1) 특성이 20개인 대량의 데이터 셋이 있습니다. 이데이터셋에서 찾을 수 있는 주성분의 개수는 몇개일까요?
A) 1. 20개 (주성분은 원본 특성의 개수만큼 찾을 수 있음)
Q2) 샘플 개수가 1,000개이고 특성 개수는 100개인 데이터셋이 있습니다. 즉 이 데이터셋의 크기는 (1000, 100)입니다. 이 데이터를 사이킷런의 PCA 클래스를 사용해 10개의 주성분을 찾아 변환했습니다. 변환된 데이터셋의 크기는 얼마일까요?
A) 1. (1000,10) (특성만 바뀜)
Q3) 2번문제에서 설명된 분산이 가장 큰 주성분은 몇 번째 일까요?
A) 1. 첫번쨰 주성분 (주성분 분석은 분산이 가장 큰 방향부터 순서대로 찾아나간다.)