Dimensionality Reduction

김명섭·2024년 8월 19일


데이터의 본질을 나타내는 내재적 차원은 실제 차원보다 작다.
이 데이터를 잘 설명할 수 있는 subspace(manifold)가 있을 것이다.
(Manifold Hypothesis)

도메인 지식을 이용한 변수 선택 방법과 L1 Norm(Lasso)을 이용한 방법도 있지만, 정량적인 차원축소에 대해 분류한 내용이다.

Feature Selection

Filter(unsupervised)

Wrapper(supervised)

Forward Selection
변수 하나씩 추가

Backward Selection
변수 하나씩 제거

Stepwise Selection
추가, 제거 같이 진행
Akaike Information Criteria(AIC)
Bayesian Information Criteria(BIC)
Adjusted R2
등을 metric으로 사용하여 정량 평가를 통한 판단

Genetic Algorithm

Feature Extraction

Max Variance

Principal Component Analysis(PCA)

Max Distance Info

Multidimensional Scaling(MDS)

Reveal non-linear structure

Locally Linear Embedding(LLE)
Isomap
t-SNE

profile
ML Engineer

0개의 댓글