데이터셋

학습 데이터셋(Training set)
- 머신러닝 모델을 학습시키는 용도로 사용(교과서)
- 전체 데이터셋의 약 80% 정도를 차지.
검증 데이터셋(validation set)
- 머신러닝 모델의 성능을 검증하고 튜닝하는 지표의 용도로 사용(모의고사)
- 이 데이터는 정답 라벨이 있고, 학습단계에서 사용하기는 하나,
모델에게 데이터를 보여주지 않으므로 성능에 영향을 미치지 않는다.- 손실 함수, Optimizer 등을 바꾸면서 모델을 검증하는 용도로 사용.
- 전체 데이터셋의 약 20% 정도를 차지
테스트 데이터셋(Test set)
- 정답 라벨이 없는 실제 환경에서의 평가 데이터셋.(수능)
- 검증 데이터 셋으로 평가된 모델이 정확도가 높더라도,
실제로 제대로 동작하지 않으면 안되기 때문.