
- K-Fold cross validation
- 일반적으로 많이 사용하는 방법
- Training set에서 보지 못한 데이터에 대한 예측성능을 평가한다.
- 다양한 데이터에 대한 예측 성능을 평가한다.
- Train / Valid / Test 3개의 셋을 나누기도 한다.
- Leave-one-out-cross validation
- 1개의 샘플에 대해 평가한다.
- 데이터가 부족할 경우에 활용하는 방법
- Time-Series nested cross validation
- 미래 데이터를 학습해 과거를 예측하는 오류를 방지해야 한다.
- 학습 데이터셋을 여러가지 방법으로 활용한다.
- Expanding window : 모두 사용하는 방법
- Sliding window : 일부만 사용하는 방법
효율적인 실험 방법을 설계하고 결과를 제대로 분석하는 것을 목적으로하는 통계학의 응용 분야
모델을 평가하는 성능지표가 높은 모델을 선택한다.
실험계획법을 통해 여러 요인을 비교하고, 가설검정을 통해 통계적으로 유의미한 차이가 있는지 확인하는 과정이 필요하다.
T-test & P-value 활용
Bayesian Optimization
- Y를 추정하는 black-box function f(x) 를 생성
- f(x)의 하이퍼파라미터를 업데이트해 가면서 최소/최대값을 탐색한다.
- 효율적으로 탐색할 수 있는 장점이 존재한다.
유전 알고리즘(Genetic Algorithm)
- 하이퍼파라미터들의 무작위한 조합을 유전자로 표현한 방법
- 생물의 진화를 모방하여 세대를 거듭해가며 가장 좋은 하이퍼파라미터들끼리의 접합, 돌연변이를 통해 최적의 해를 찾는 방법
담금질 기법(Simulated Anealing)