[ML] 차원 축소 - 차원 축소 (Dimensionality reduction) 개요

강주형·2022년 7월 19일

사이킷런으로 머신러닝

목록 보기

36/46

차원의 저주

차원이 커질수록 데이터 포인트간 거리가 크게 늘어나고 데이터가 희소화됨
-> Feature가 많으면 ML 알고리즘 무력화 가능성 있음
-> Feature가 많으면 개별 Feature간 상관관계가 높기 때문에,
선형 회귀 같은 모델에서는 다중 공선성 문제로 예측 성능 저하 가능성 있음

차원 축소의 장점

학습 데이터 크기를 줄여서 학습 시간 절약
불필요한 Feature 제거로 모델 성능 향상 기여 (주로 이미지 데이터)
다차원 데이터를 3차원 이하의 데이터로 줄이면 시각화에 유용
추천 엔진, 이미지 분류 및 변환, 문서 토픽 모델링에서 유용

차원 축소의 종류

피처 선택 (Feature Selection)
-> 특정 Feature에 종속성이 강한 불필요한 Feature를 아예 제거
-> 데이터의 특징을 잘 나타내는 Feature만 선택
피처 추출 (Feature exraction)
-> Feature를 함축적으로 더 잘 설명할 수 있는 또 다른 공간으로 매핑해 추출
-> 기존 Feature를 저차원의 중요 Feature로 압축해서 추출
-> 새로운 Feature로 생성되는 것 (기존 Feature는 제거)
-> 차원 축소는 거의 피처 추출이 베이스

피처 추출 예시
1. 기존 Feature

모의고사 성적

내신 성적

수능 성적

봉사 활동

대외 활동

수상 경력

새로 압축해서 추출한 Feature

학업 성취도

커뮤니케이션

문제 해결력

차원 축소의 의미

단순히 데이터의 압축을 의미하기 보다는
더 데이터를 잘 설명할 수 있는 잠재적인 요소를 추출!

강주형

Statistics & Data Science

이전 포스트

[ML] 회귀 - 캐글 경연 주택 가격 예측

다음 포스트