PCA는 차원축소와 변수추출 기법으로 쓰인다.
주 성분 분석: 전체 데이터(독립변수)의 분산을 잘 설명하는 성분을 말함
예를 들어 집을 고를 때 고려하던 것이 5가지 였으면 단순히 고려사항인 2가지로만 출인다면 이것이 PCA가 하는 일이다.
Centering
(평균이동): 데이터의 평균을 구한 뒤 모든 데이터에서 평균을 빼서 데이터를 평균이 0인 상태로 만든다.
Standardization
(공분산 행렬 계산): 각 차원마다 분산을 구한 뒤 분산으로 정규화 한다.
EigenValue/ EigenVector
: 공분산 행렬의 고유값과 고유벡터를 구한다. eigenValue은 공분산 행렬의 분산을 나타내고 eigenVector는 공분산 행렬의 방향을 나타낸다.
Projection
(주성분 선택): 고유값이 큰 순서대로 고유벡터를 정렬한 뒤 원하는 차원 수만큼 고유벡터를 선택했다. 이 과정에서 선택된 고유벡터를 주성분이라고 한다.
데이터 변환: 선택된 주성분에 데이터를 투영하여 저차원 데이터를 얻는다.
-> PCA 주요 활동 분야: 데이터 시각화, 특성 추출, 데이터 압축, 노이즈 제거