피처 셀렉션 기법
정의: 변수(피처)가 많아질수록 데이터의 복잡도가 높아지며, 이를 표현하기 위해서는 많은 데이터가 필요하게 되는 현상.
문제점: 피처가 많아지면 모델이 오버피팅될 가능성이 높아짐. 트레이닝 데이터에서는 정확도가 높지만 테스트 데이터에서는 성능이 낮아짐.
해결 방법: 피처 셀렉션을 통해 필요한 변수만 선택하여 모델의 복잡도를 줄이고, 오버피팅을 방지한다.
피처가 많을수록 모델의 복잡도가 높아지며, 바이어스는 낮아지고 베리언스는 높아진다.
피처 셀렉션을 통해 바이어스와 베리언스의 트레이드오프를 최적화하여 모델의 성능을 향상시킨다.
정의: 가능한 모든 피처 조합을 시도하여 가장 좋은 성능을 내는 조합을 선택.
장점: 최적의 피처 조합을 찾을 수 있음.
단점: 피처 수가 많아지면 계산량이 급격히 증가하여 현실적으로 사용이 어려움.
정의: 피처를 하나씩 추가하며 모델의 성능을 평가, 가장 성능이 좋은 피처를 선택.
방법:
정의: 모든 피처를 포함한 모델에서 시작하여, 하나씩 제거하며 모델의 성능을 평가.
방법:
장점: 모든 피처를 처음에 포함하여 시작하므로, 중요한 피처가 제거될 가능성이 낮음.
단점: 계산량이 많고, 피처 수가 많을 때는 비효율적.
정의: 전진 선택법과 후진 제거법을 번갈아 가며 수행.
방법:
장점: 전진 선택법과 후진 제거법의 장점을 모두 활용하여, 더 나은 피처 조합을 찾을 가능성이 높음.
단점: 계산량이 많고, 시간이 오래 걸릴 수 있음.
피처 3개: x1, x2, x3
가능한 조합: x1, x2, x3, x1+x2, x1+x3, x2+x3, x1+x2+x3
각 조합에 대해 모델의 성능을 평가하고, 최적의 조합을 선택.
초기 모델: 없음
초기 모델: x1, x2, x3, x4, x5, x6, x7, x8