[DL] Train Data, Test Data, Val Data

Sunguk·2023년 1월 3일
0

데이터 세트는 기계 학습 알고리즘을 훈련하기 위해 사용됩니다. 일반적으로 이러한 데이터 세트는 훈련 데이터, 검증 데이터, 테스트 데이터로 구분됩니다.

1. 훈련 데이터 (train data)

훈련 데이터는 알고리즘을 학습 시키기 위해 사용됩니다. 알고리즘은 이 데이터로부터 패턴을 학습하고, 그 패턴을 기반으로 새로운 데이터에 대한 예측을 수행할 수 있도록 구성됩니다.

2. 테스트 데이터 (test data)

테스트 데이터는 기계 학습 모델의 성능을 평가하는 데 사용되는 데이터 세트입니다. 새 데이터에 대한 모델의 정확성, 정밀도 및 재현율을 평가하는 데 사용됩니다. 테스트 데이터는 일반적으로 훈련 데이터에서 분리되며 모델이 훈련된 후 검증하는 데 사용됩니다. 테스트 데이터는 모델이 보이지 않는 새로운 데이터로 일반화될 수 있도록 도와주므로 기계 학습 프로세스의 중요한 부분입니다.

# train data 와 test 를 작성하는 파이썬 예시 코드 입니다.
x_train = np.array([1,2,3]) 
x_test = np.array([1,2,3]) 

y_train = np.array([1,2,3])
y_test = np.array([1,2,3]))

3. 검증 데이터 (val data)

validation 은 "검증" 데이터를 나타냅니다. 유효성 검사 데이터는 훈련 과정에서 모델을 평가하는 데 사용되지만 모델 훈련에는 사용되지 않는 데이터 집합입니다. 모델의 하이퍼파라미터를 조정하고 모델이 교육 데이터에 과적합되지 않도록 하는 데 사용됩니다.

4. (추가) 과적합이란 ?

과적합은 모델이 너무 복잡하고 훈련 데이터의 세부 사항을 너무 잘 학습할 수 있어 새 데이터에 대한 일반화가 제대로 이루어지지 않을 때 발생합니다. 검증 데이터는 교육 중에 다른 데이터 세트에서 모델의 성능을 확인하는 방법을 제공하여 과적합을 방지하는 데 도움이 됩니다.

5. 정리

훈련 세트는 모델을 훈련시키는 데 사용되고, 검증 세트는 훈련 중에 모델을 평가하고 하이퍼파라미터를 조정하는 데 사용되며, 테스트 세트는 훈련된 모델의 성능을 평가하는 데 사용됩니다.

profile
안녕하세요

0개의 댓글