멋사 ai 스쿨 TIL (33) - a.m 자기주도학습
1. PCA
특징
- 자료에 중복 정보가 많을 경우, 자료가 갖는 차원보다 더 작은 수의 차원에서도 자료에내재한 정보 설명 가능
- 처음 몇 개의 차원이 정보를 최대한 많이 설명할 수 있도록 자료를 새로운 방향에서 보게 함
- 각각의 성분 간에 상관관계가 없음 -> 이후 회귀 분석 등에서 종속 관계 분석 시 다중공선성을 없애 줌
분산
- 분산을 가장 잘 설명한다 = 해당 축으로 데이터를 사영시켰을 때 사영된 데이터의 분산이 가장 커진다
- U 1 라는 2 * 1의 행렬에 대하여 Z 1 = Xu 1 일 경ㅇ우, Z 1 은 U 1에 사영된 데이터의 값들로 이루어진 n차원의 벡터가 됨
-> 사영된 데이터들의 분산이 첫 주성분에 의해 설명되는 분산