[Andrew Ng] 1-1.Train/Dev/Test Sets

Prettypotato·2026년 2월 15일

딥러닝 2단계: 심층 신경망 성능 향상시키기

목록 보기

1/15

단순 정의
- Train set : 훈련을 위해 사용하는 데이터
- Validation set : 모델 성능을 평가하고 최적의 모델을 선택하는 데이터
- Test set : 모델 최종 성능을 평가하는 데이터
Data 관점에서 봤을 때
- Train set : Parameter 학습을 위한 데이터
- Validation set : Hyperparameter 선택을 위한 데이터
  - Val loss를 보고 Hyperparameter를 선택한다.
- Test set : 최종적으로 학습된 모델 테스트용 데이터
  - Train과정에서 사용하면 안된다. AI가 처음 보는 data에 대해서도 잘하는지 확인해야기 때문이다.
- AI가 푸는 문제 vs AI가 보는 모의고사 문제 vs AI가 보는 수능 문제
데이터가 작았을 때는 Validation, Test set에 전체 셋의 20~30% 비중을 두었지만, 데이터가 방대해 짐에 따라 0.25~0.5%만 줘도 된다.

Train set은 고화질/고퀄리티 사진, Test set은 저해성도/일상적인 사진 일 때, Train set과 Test set의 distribution의 mismatch가 일어난다.
Train하고 Test의 distribution이 다를 수 있어도, Validation set과 Test set의 distribution은 무조건 같아야 한다!

출처 및 참고 자료

Andrew Ng, Improving Deep Neural Network, DeepLearningAI

혁펜하임, Easy! 딥러닝