오늘은 피처 선택에 대해 공부했다.
머신러닝 모델에서 사용할 피처를 선택하는 과정
머신러닝 모델이 타겟 변수를 예측하는데 유용하지 않은 피처를 거르고 유용한 피처를 선택하는 과정
피처 선택을 통해 모델의 복잡도를 낮춰 overfitting 방지 및 모델 속도 향상 가능
목표 변수와 피처 간의 통계적 관계(상관계수, 상호정보량 등)를 기반으로 중요 피처를 선별
ex) 상관계수 기반 필터링, 단변량 통계 검정 등
피처 간 상관계수가 반드시 모델에 적합하다고는 할 수는 없다.
계산 비용이 적고 간단하지만, 피처 간 상호작용은 고려하지 못한다.
모델 자체의 성능 지표(정확도, AUC 등)를 기반으로 최적 피처 부분집합(subset)을 탐색
ex) 순차적 피처 선택(SFS), 재귀적 피처 제거(RFE) 등
계산 비용이 많이 들지만, 모델에 맞춤형 피처를 선택할 수 있다.
모델 학습 과정에서 피처 중요도를 함께 계산하여 선택
ex) LASSO, Ridge, 의사결정 트리 기반 모델의 피처 중요도 등
모델 학습과 피처 선택이 동시에 이루어지므로 효율적
본 포스트의 학습 내용은 부스트클래스 <AI 엔지니어 기초 다지기 : 부스트캠프 AI Tech 준비과정> 강의 내용을 바탕으로 작성되었습니다.