머신러닝 모델을 학습시키는 용도로 사용한다. 전체 데이터의 약 80% 정도를 차지한다.
머신러닝 모델의 성능을 검증하고 튜닝하는 지표의 용도로 사용한다. 이 데이터는 정답 라벨이 있고, 학습 단계에서 사용하기는 하지만, 모델에게 데이터를 직접 보여주지는 않으므로 모델의 성능에 영향을 미치지는 않는다.
정답 라벨이 없는 실제 환경에서의 평가 데이터셋이다.