Feature selection 기법

김대현·2024년 7월 19일

피처 셀렉션 기법

1. 차원의 저주(Curse of Dimensionality)

정의: 변수(피처)가 많아질수록 데이터의 복잡도가 높아지며, 이를 표현하기 위해서는 많은 데이터가 필요하게 되는 현상.
문제점: 피처가 많아지면 모델이 오버피팅될 가능성이 높아짐. 트레이닝 데이터에서는 정확도가 높지만 테스트 데이터에서는 성능이 낮아짐.
해결 방법: 피처 셀렉션을 통해 필요한 변수만 선택하여 모델의 복잡도를 줄이고, 오버피팅을 방지한다.

2. 피처 셀렉션의 필요성

피처가 많을수록 모델의 복잡도가 높아지며, 바이어스는 낮아지고 베리언스는 높아진다.
피처 셀렉션을 통해 바이어스와 베리언스의 트레이드오프를 최적화하여 모델의 성능을 향상시킨다.

3. 피처 셀렉션 기법

3.1. 완전 탐색(Exhaustive Search)

정의: 가능한 모든 피처 조합을 시도하여 가장 좋은 성능을 내는 조합을 선택.
장점: 최적의 피처 조합을 찾을 수 있음.
단점: 피처 수가 많아지면 계산량이 급격히 증가하여 현실적으로 사용이 어려움.

3.2. 전진 선택법(Forward Selection)

정의: 피처를 하나씩 추가하며 모델의 성능을 평가, 가장 성능이 좋은 피처를 선택.
방법:
- 초기 모델에 피처가 없음.
- 각 피처를 하나씩 추가하며 모델의 성능(R-제곱, MSE 등)을 평가.
- 가장 성능이 좋은 피처를 선택하고, 이를 고정한 상태로 다음 피처를 추가.
- 이 과정을 반복하여 더 이상의 성능 향상이 없을 때까지 진행.
- 장점: 비교적 계산량이 적고, 피처가 많을 때 유용.
- 단점: 초기 선택이 잘못되면 전체 성능에 영향을 미침.

3.3. 후진 제거법(Backward Elimination)

정의: 모든 피처를 포함한 모델에서 시작하여, 하나씩 제거하며 모델의 성능을 평가.
방법:
- 초기 모델에 모든 피처를 포함.
- 각 피처를 하나씩 제거하며 모델의 성능을 평가.
- 성능에 큰 영향을 미치지 않는 피처를 제거.
- 이 과정을 반복하여 더 이상의 성능 저하가 없을 때까지 진행.
장점: 모든 피처를 처음에 포함하여 시작하므로, 중요한 피처가 제거될 가능성이 낮음.
단점: 계산량이 많고, 피처 수가 많을 때는 비효율적.

3.4. 단계적 선택법(Stepwise Selection)

정의: 전진 선택법과 후진 제거법을 번갈아 가며 수행.
방법:
- 초기 모델에 피처가 없음.
- 전진 선택법을 통해 피처를 추가.
- 후진 제거법을 통해 성능에 영향을 미치지 않는 피처를 제거.
- 이 과정을 반복하여 최적의 피처 조합을 찾음.
장점: 전진 선택법과 후진 제거법의 장점을 모두 활용하여, 더 나은 피처 조합을 찾을 가능성이 높음.
단점: 계산량이 많고, 시간이 오래 걸릴 수 있음.

4. 예시

완전 탐색:

피처 3개: x1, x2, x3
가능한 조합: x1, x2, x3, x1+x2, x1+x3, x2+x3, x1+x2+x3
각 조합에 대해 모델의 성능을 평가하고, 최적의 조합을 선택.

전진 선택법:

초기 모델: 없음
- 첫 번째 단계: x1, x2, x3 중에서 가장 성능이 좋은 피처 선택 (예: x2)
- 두 번째 단계: x2를 고정하고 x1, x3 중에서 추가할 피처 선택 (예: x7)
- 세 번째 단계: x2와 x7을 고정하고 나머지 피처 중에서 추가할 피처 선택 (예: x4)

후진 제거법:

초기 모델: x1, x2, x3, x4, x5, x6, x7, x8
- 첫 번째 단계: 각 피처를 제거하며 성능을 평가, 가장 영향이 적은 피처 제거 (예: x3)
- 두 번째 단계: x3을 제외한 나머지 피처 중에서 성능에 영향을 미치지 않는 피처 제거 (예: x5)
- 세 번째 단계: 이 과정을 반복하여 최적의 피처 조합을 찾음.

단계적 선택법:

초기 모델: 없음
- 첫 번째 단계: 전진 선택법으로 피처 선택 (예: x2)
- 두 번째 단계: 후진 제거법으로 피처 제거 (예: x7)
- 세 번째 단계: 전진 선택법으로 피처 추가 (예: x4)
  이 과정을 반복하여 최적의 피처 조합을 찾음.

데이터 분석 스쿨 블로그 입니다.

이전 포스트

Model 평가 및 지표 해석

다음 포스트

[프로젝트] 온라인 화장품 shop 고객분석

0개의 댓글