ML-review 차원 축소

zzZ·2024년 9월 4일

일반적으로 차원이 증가 할수록 데이터가 sparse한 구조를 가지게 된다
피처가 많을 경우 개별 피처간에 상관관계가 높을 가능성이 있어 선형 회귀와 같은 선형 모델에서는 다중 공산성 문제로 모델 성능이 저하 될 수 있다
피처 선택(feature selection): 특정 피처에 종속성이 강한 불필요한 피처를 아예 제거
피처 추출(feature extraction): 기존 피처를 저차원의 중요 피처로 압축해서 추출
차원 축소는 기존 피처가 전혀 인지하기 어려웠던 잠재적인 요소(Latent Factor)를 추출하는 것을 의미한다
매우 많은 픽셀로 이루어진 이미지 데이터에서 잠재된 특성을 피처로 도출해 훨씬 작은 차원으로 바꿔서 과적합 영향력이 작아져서 오히려 원본 데이터보다 예측 성능을 올릴 수 있다
텍스트 문서에서 차원 축소를 통해 시멘틱(Semantic)의미나 토픽(Topic)을 잠재 요소로 간주하고 이를 찾아 낼 수 있다

1 PCA(Principal Component Analysis)

C = P\sum P^T

C =\begin{bmatrix}e_1 ...e_n\end{bmatrix} \begin{bmatrix}\lambda_1 & ... &0 \\...&...&...\\ 0&...&\lambda_n \end{bmatrix} \begin{bmatrix}e_1\\...\\e_n\end{bmatrix}

LDA는 PCA와 유사하나 지도학습의 분류에서 사용하기 쉽도록 개별 클래스를 분별할 수 있는 기준을 최대한 유지하면서 차원을 축소
LDA는 특정 공간상에서 클래스 분리를 최대화하는 축을 찾기 위해 클래스간 분산(between-class scatter)과 클래스 내부 분산(within-class scatter)의 비율을 최대화 하는 방식으로 차원 축소한다

따라서 LDA는 공분산 행렬이 아니라 클래스 간 분산과, 클래스 내부 분산 행렬을 생성한 뒤, 이 행렬에 기반해 고유벡터를 구하고 데이터를 투영한다
클래스 내부 분산 행렬을 $S_w$ , 클래스 간 분산 행렬을 $S_B$ 라고 하면 다음 식으로 두 행렬을 고유 벡터 분해한다

S_W^TS_B = \begin{bmatrix}e_1...e_n\end{bmatrix} \begin{bmatrix}\lambda_1&...&0\\ ... &...&...\\ 0&...&\lambda_n\end{bmatrix} \begin{bmatrix}e_1^T\\...\\e_n^T\end{bmatrix}

A = U\sum V^T