Feature selection 기법

김대현·2024년 7월 19일

피처 셀렉션 기법

1. 차원의 저주(Curse of Dimensionality)

  • 정의: 변수(피처)가 많아질수록 데이터의 복잡도가 높아지며, 이를 표현하기 위해서는 많은 데이터가 필요하게 되는 현상.

  • 문제점: 피처가 많아지면 모델이 오버피팅될 가능성이 높아짐. 트레이닝 데이터에서는 정확도가 높지만 테스트 데이터에서는 성능이 낮아짐.

  • 해결 방법: 피처 셀렉션을 통해 필요한 변수만 선택하여 모델의 복잡도를 줄이고, 오버피팅을 방지한다.


2. 피처 셀렉션의 필요성

  • 피처가 많을수록 모델의 복잡도가 높아지며, 바이어스는 낮아지고 베리언스는 높아진다.

  • 피처 셀렉션을 통해 바이어스와 베리언스의 트레이드오프를 최적화하여 모델의 성능을 향상시킨다.


3. 피처 셀렉션 기법

  • 정의: 가능한 모든 피처 조합을 시도하여 가장 좋은 성능을 내는 조합을 선택.

  • 장점: 최적의 피처 조합을 찾을 수 있음.

  • 단점: 피처 수가 많아지면 계산량이 급격히 증가하여 현실적으로 사용이 어려움.


3.2. 전진 선택법(Forward Selection)

  • 정의: 피처를 하나씩 추가하며 모델의 성능을 평가, 가장 성능이 좋은 피처를 선택.

  • 방법:

    • 초기 모델에 피처가 없음.
    • 각 피처를 하나씩 추가하며 모델의 성능(R-제곱, MSE 등)을 평가.
    • 가장 성능이 좋은 피처를 선택하고, 이를 고정한 상태로 다음 피처를 추가.
    • 이 과정을 반복하여 더 이상의 성능 향상이 없을 때까지 진행.
    • 장점: 비교적 계산량이 적고, 피처가 많을 때 유용.
    • 단점: 초기 선택이 잘못되면 전체 성능에 영향을 미침.

3.3. 후진 제거법(Backward Elimination)

  • 정의: 모든 피처를 포함한 모델에서 시작하여, 하나씩 제거하며 모델의 성능을 평가.

  • 방법:

    • 초기 모델에 모든 피처를 포함.
    • 각 피처를 하나씩 제거하며 모델의 성능을 평가.
    • 성능에 큰 영향을 미치지 않는 피처를 제거.
    • 이 과정을 반복하여 더 이상의 성능 저하가 없을 때까지 진행.
  • 장점: 모든 피처를 처음에 포함하여 시작하므로, 중요한 피처가 제거될 가능성이 낮음.

  • 단점: 계산량이 많고, 피처 수가 많을 때는 비효율적.


3.4. 단계적 선택법(Stepwise Selection)

  • 정의: 전진 선택법과 후진 제거법을 번갈아 가며 수행.

  • 방법:

    • 초기 모델에 피처가 없음.
    • 전진 선택법을 통해 피처를 추가.
    • 후진 제거법을 통해 성능에 영향을 미치지 않는 피처를 제거.
    • 이 과정을 반복하여 최적의 피처 조합을 찾음.
  • 장점: 전진 선택법과 후진 제거법의 장점을 모두 활용하여, 더 나은 피처 조합을 찾을 가능성이 높음.

  • 단점: 계산량이 많고, 시간이 오래 걸릴 수 있음.


4. 예시

완전 탐색:

  • 피처 3개: x1, x2, x3

  • 가능한 조합: x1, x2, x3, x1+x2, x1+x3, x2+x3, x1+x2+x3

  • 각 조합에 대해 모델의 성능을 평가하고, 최적의 조합을 선택.

전진 선택법:

  • 초기 모델: 없음

    • 첫 번째 단계: x1, x2, x3 중에서 가장 성능이 좋은 피처 선택 (예: x2)
    • 두 번째 단계: x2를 고정하고 x1, x3 중에서 추가할 피처 선택 (예: x7)
    • 세 번째 단계: x2와 x7을 고정하고 나머지 피처 중에서 추가할 피처 선택 (예: x4)

후진 제거법:

  • 초기 모델: x1, x2, x3, x4, x5, x6, x7, x8

    • 첫 번째 단계: 각 피처를 제거하며 성능을 평가, 가장 영향이 적은 피처 제거 (예: x3)
    • 두 번째 단계: x3을 제외한 나머지 피처 중에서 성능에 영향을 미치지 않는 피처 제거 (예: x5)
    • 세 번째 단계: 이 과정을 반복하여 최적의 피처 조합을 찾음.

단계적 선택법:

  • 초기 모델: 없음
    • 첫 번째 단계: 전진 선택법으로 피처 선택 (예: x2)
    • 두 번째 단계: 후진 제거법으로 피처 제거 (예: x7)
    • 세 번째 단계: 전진 선택법으로 피처 추가 (예: x4)
      이 과정을 반복하여 최적의 피처 조합을 찾음.
profile
데이터 분석 스쿨 블로그 입니다.

0개의 댓글