공간 내 데이터의 위치를 나타내기 위해 필요한 축의 개수
변수가 늘어나면서 차원이 커짐에 따라 발생하는 문제
데이터를 잘 설명할 수 있는 변수의 개수 (Latent Space)는 현재 변수의 개수보다 작을 수 있다.
변수 선택 ( Feature Selection )
- 원본 데이터의 변수 중 불필요한 변수를제거
- 몸무게, 키, 머리 길이 -> 몸무게, 키
변수 추출 ( Feature Extraction )
여러 변수의 정보를 담고있는 주성분이라는 새로운 변수를 생성하는 차원 축소 기법
분산(Variance)을 최대로 보존하는 Hyperplane(초평면)을 찾는 과정
단순히 차원을 줄이는 것이 아니라,
관측된 차원이 아닌 실제 데이터를 설명하는 차원을 찾는 것.
원본 데이터 셋과 투영된 Hyperplane의 평균 제곱거리를 최소화
- 정보를 가장 적게 손실하기 때문
왜 분산을 최대화 하는 것이 정보의 손실을 최소화 하는 것인가?
- 차원이 줄어도 분산이 커서 각각의 데이터가 구별된다.
분산을 가장 크게하는 축이 첫번째 주성분.
첫번째 주성분에 직교하면서 남은 분산을 최대로 보존하는 두번째 축이 두번째 주성분
데이터 표준화
표준화된 데이터의 공분산 행렬 생성
고유값 분해 (Eigen Decomposition )
K개 벡터의 새로운 Bias