가장 쉽게 배우는 머신러닝 1주차 : 데이터셋 분할

wwoo·2021년 6월 28일
0

머신러닝

목록 보기
4/10
post-thumbnail

4. 📚데이터셋 분할

1. 📗학습/검증/테스트 데이터

1. 🔎Training set(학습 데이터셋, 트레이닝셋) = 교과서

머신러닝 모델을 학습시키는 용도로 사용한다. 전체 데이터의 약 80% 정도를 차지한다.

2. 🔎Validation set(검증 데이터셋, 밸리데이션 셋) = 모의고사

머신러닝 모델의 성능을 검증하고 튜닝하는 지표의 용도로 사용한다. 이 데이터는 정답 라벨이 있고, 학습 단계에서 사용하기는 하지만, 모델에게 데이터를 직접 보여주지는 않으므로 모델의 성능에 영향을 미치지는 않는다.

3. 🔎Test set(평가 데이터셋, 테스트셋) = 수능

정답 라벨이 없는 실제 환경에서의 평가 데이터셋이다.

0개의 댓글