검증용 및 테스트용 데이터셋

JH.SUNG·2021년 11월 30일

인공지능(머신러닝)

목록 보기

8/13

앞서 말한 과적합(훈련 모델 최적화)를 방지하기 위해서는 데이터셋을 학습용과 검증용으로 분할해야 한다.

검증용 데이터셋을 분리한다는 것은 모델이 학습 중에 볼 수 없도록 데이터를 따로 보관한다는 의미이다.

하지만 우리는 모델을 구성하기 위해서 여러가지의 파라미터들을 정해야하는데,이 새로운 파라미터를 탐색하는 과정에서 위에 말했던 검증용 데이터셋의 간접적인 영향을 받게 된다.

그래서 나온게 학습할때 및 하이퍼 파라미터를 설정할때도 사용하지 않는 테스트용 데이터셋이다.
테스트용 데이터셋은 모델을 개선하는 데 사용되어서는 안되며, 오직 최종모델을 평가하는 목적으로만 활용해야 한다.

물론 데이터가 매우 부족한 특수한 상황에서는 별도의 테스트용 데이터셋을 항상 구축해야 하는건 아니다.
만약 어떤 조직 및 단체가 AI를 외부에서 도입하기로 하였다면, 외부 업체가 절대 볼 수 없는 테스트용 데이터셋을 따로 빼두어야 한다.

테스트용 데이터셋은 미래의 새로운 데이터를 대표해야 한다.
이것은 테스트용 데이터셋을 임의로 추출하는 방식으로는 부족하거나 문제가 생길 수 있다는 것을 의미한다.

예를 들면) 시계열 데이터의 경우, 시간의 흐름에 따라 데이터가 구성되어 있기때문에 최근의 데이터일수록 미래의 새로운 데이터를 대표할 가능성이 높아진다.

또한 일반적인 상황에서의 데이터는 학습때의 데이터와 질적으로 다를 수 있다는 사실이다.
학습때의 특성과 또 다른 특성에 과적합될 수 있다는 점이다.
따라서 이러한 부분들을 섬세하게 신경쓰고 조심해야 일반화된 모델을 얻을 수 있을 것이다.

후회없이