차원이 커질수록 데이터 포인트간 거리가 크게 늘어나고 데이터가 희소화됨
-> Feature가 많으면 ML 알고리즘 무력화 가능성 있음
-> Feature가 많으면 개별 Feature간 상관관계가 높기 때문에,
선형 회귀 같은 모델에서는 다중 공선성 문제로 예측 성능 저하 가능성 있음
피처 선택 (Feature Selection)
-> 특정 Feature에 종속성이 강한 불필요한 Feature를 아예 제거
-> 데이터의 특징을 잘 나타내는 Feature만 선택
피처 추출 (Feature exraction)
-> Feature를 함축적으로 더 잘 설명할 수 있는 또 다른 공간으로 매핑해 추출
-> 기존 Feature를 저차원의 중요 Feature로 압축해서 추출
-> 새로운 Feature로 생성되는 것 (기존 Feature는 제거)
-> 차원 축소는 거의 피처 추출이 베이스
피처 추출 예시
1. 기존 Feature
- 모의고사 성적
- 내신 성적
- 수능 성적
- 봉사 활동
- 대외 활동
- 수상 경력
- 새로 압축해서 추출한 Feature
- 학업 성취도
- 커뮤니케이션
- 문제 해결력
단순히 데이터의 압축을 의미하기 보다는
더 데이터를 잘 설명할 수 있는 잠재적인 요소를 추출!