모델 비교를 위한 실험설계, 모델 선택법

1. 단일 모델의 평가 - 시간 순서가 없는 Dataset

1-1. 시간 순서가 없는 Dataset

  • K-Fold cross validation
    • 일반적으로 많이 사용하는 방법
    • Training set에서 보지 못한 데이터에 대한 예측성능을 평가한다.
    • 다양한 데이터에 대한 예측 성능을 평가한다.
    • Train / Valid / Test 3개의 셋을 나누기도 한다.
  • Leave-one-out-cross validation
    • 1개의 샘플에 대해 평가한다.
    • 데이터가 부족할 경우에 활용하는 방법

1-2. 시간 순서가 있는 Dataset

  • Time-Series nested cross validation
    • 미래 데이터를 학습해 과거를 예측하는 오류를 방지해야 한다.
    • 학습 데이터셋을 여러가지 방법으로 활용한다.
      • Expanding window : 모두 사용하는 방법
      • Sliding window : 일부만 사용하는 방법

2. 여러 모델간의 평가

2-1. 실험계획법(Design of Experiment)

  • 효율적인 실험 방법을 설계하고 결과를 제대로 분석하는 것을 목적으로하는 통계학의 응용 분야

  • 모델을 평가하는 성능지표가 높은 모델을 선택한다.

  • 실험계획법을 통해 여러 요인을 비교하고, 가설검정을 통해 통계적으로 유의미한 차이가 있는지 확인하는 과정이 필요하다.

  • T-test & P-value 활용

  • Bayesian Optimization

    • Y를 추정하는 black-box function f(x) 를 생성
    • f(x)의 하이퍼파라미터를 업데이트해 가면서 최소/최대값을 탐색한다.
    • 효율적으로 탐색할 수 있는 장점이 존재한다.
  • 유전 알고리즘(Genetic Algorithm)

    • 하이퍼파라미터들의 무작위한 조합을 유전자로 표현한 방법
    • 생물의 진화를 모방하여 세대를 거듭해가며 가장 좋은 하이퍼파라미터들끼리의 접합, 돌연변이를 통해 최적의 해를 찾는 방법
  • 담금질 기법(Simulated Anealing)

profile
please bbbbbbbbb 😂

0개의 댓글