데이터셋 분할

김건우·2022년 1월 5일
0

머신러닝

목록 보기
4/21
post-thumbnail

데이터셋

학습 데이터셋(Training set)

  • 머신러닝 모델을 학습시키는 용도로 사용(교과서)
  • 전체 데이터셋의 약 80% 정도를 차지.

검증 데이터셋(validation set)

  • 머신러닝 모델의 성능을 검증하고 튜닝하는 지표의 용도로 사용(모의고사)
  • 이 데이터는 정답 라벨이 있고, 학습단계에서 사용하기는 하나,
    모델에게 데이터를 보여주지 않으므로 성능에 영향을 미치지 않는다.
  • 손실 함수, Optimizer 등을 바꾸면서 모델을 검증하는 용도로 사용.
  • 전체 데이터셋의 약 20% 정도를 차지

테스트 데이터셋(Test set)

  • 정답 라벨이 없는 실제 환경에서의 평가 데이터셋.(수능)
  • 검증 데이터 셋으로 평가된 모델이 정확도가 높더라도,
    실제로 제대로 동작하지 않으면 안되기 때문.
profile
공부하는 개발자가 목표입니다.

0개의 댓글