[ML] 차원 축소 - 차원 축소 (Dimensionality reduction) 개요

강주형·2022년 7월 19일
0

차원의 저주

차원이 커질수록 데이터 포인트간 거리가 크게 늘어나고 데이터가 희소화됨
-> Feature가 많으면 ML 알고리즘 무력화 가능성 있음
-> Feature가 많으면 개별 Feature간 상관관계가 높기 때문에,
선형 회귀 같은 모델에서는 다중 공선성 문제로 예측 성능 저하 가능성 있음


차원 축소의 장점

  • 학습 데이터 크기를 줄여서 학습 시간 절약
  • 불필요한 Feature 제거로 모델 성능 향상 기여 (주로 이미지 데이터)
  • 다차원 데이터를 3차원 이하의 데이터로 줄이면 시각화에 유용
  • 추천 엔진, 이미지 분류 및 변환, 문서 토픽 모델링에서 유용

차원 축소의 종류

  1. 피처 선택 (Feature Selection)
    -> 특정 Feature에 종속성이 강한 불필요한 Feature를 아예 제거
    -> 데이터의 특징을 잘 나타내는 Feature만 선택

  2. 피처 추출 (Feature exraction)
    -> Feature를 함축적으로 더 잘 설명할 수 있는 또 다른 공간으로 매핑해 추출
    -> 기존 Feature를 저차원의 중요 Feature로 압축해서 추출
    -> 새로운 Feature로 생성되는 것 (기존 Feature는 제거)
    -> 차원 축소는 거의 피처 추출이 베이스

피처 추출 예시
1. 기존 Feature

  • 모의고사 성적
  • 내신 성적
  • 수능 성적
  • 봉사 활동
  • 대외 활동
  • 수상 경력
  1. 새로 압축해서 추출한 Feature
  • 학업 성취도
  • 커뮤니케이션
  • 문제 해결력

차원 축소의 의미

단순히 데이터의 압축을 의미하기 보다는
더 데이터를 잘 설명할 수 있는 잠재적인 요소를 추출!

profile
Statistics & Data Science

0개의 댓글