데이터 세트는 기계 학습 알고리즘을 훈련하기 위해 사용됩니다. 일반적으로 이러한 데이터 세트는 훈련 데이터, 검증 데이터, 테스트 데이터로 구분됩니다.
훈련 데이터는 알고리즘을 학습 시키기 위해 사용됩니다. 알고리즘은 이 데이터로부터 패턴을 학습하고, 그 패턴을 기반으로 새로운 데이터에 대한 예측을 수행할 수 있도록 구성됩니다.
테스트 데이터는 기계 학습 모델의 성능을 평가하는 데 사용되는 데이터 세트입니다. 새 데이터에 대한 모델의 정확성, 정밀도 및 재현율을 평가하는 데 사용됩니다. 테스트 데이터는 일반적으로 훈련 데이터에서 분리되며 모델이 훈련된 후 검증하는 데 사용됩니다. 테스트 데이터는 모델이 보이지 않는 새로운 데이터로 일반화될 수 있도록 도와주므로 기계 학습 프로세스의 중요한 부분입니다.
# train data 와 test 를 작성하는 파이썬 예시 코드 입니다.
x_train = np.array([1,2,3])
x_test = np.array([1,2,3])
y_train = np.array([1,2,3])
y_test = np.array([1,2,3]))
validation 은 "검증" 데이터를 나타냅니다. 유효성 검사 데이터는 훈련 과정에서 모델을 평가하는 데 사용되지만 모델 훈련에는 사용되지 않는 데이터 집합입니다. 모델의 하이퍼파라미터를 조정하고 모델이 교육 데이터에 과적합되지 않도록 하는 데 사용됩니다.
과적합은 모델이 너무 복잡하고 훈련 데이터의 세부 사항을 너무 잘 학습할 수 있어 새 데이터에 대한 일반화가 제대로 이루어지지 않을 때 발생합니다. 검증 데이터는 교육 중에 다른 데이터 세트에서 모델의 성능을 확인하는 방법을 제공하여 과적합을 방지하는 데 도움이 됩니다.
훈련 세트는 모델을 훈련시키는 데 사용되고, 검증 세트는 훈련 중에 모델을 평가하고 하이퍼파라미터를 조정하는 데 사용되며, 테스트 세트는 훈련된 모델의 성능을 평가하는 데 사용됩니다.