DATAA

이동호·2023년 5월 8일

데이터셋 종류

  1. 훈련 데이터셋(Training Dataset):

    • 기계 학습 모델을 학습시키는 데 사용되는 데이터셋입니다.
    • 모델의 파라미터 및 가중치가 조정되어 최적의 성능을 달성할 수 있도록 합니다.
    • 일반적으로 전체 데이터셋 중 약 60-80%를 차지합니다.
  2. 검증 데이터셋(Validation Dataset):

    • 훈련 중에 모델의 하이퍼파라미터를 조정하고 모델을 평가하는 데 사용됩니다.
    • 훈련 데이터셋에서는 보지 못한 새로운 데이터에 대한 모델의 성능을 평가할 수 있습니다.
    • 일반적으로 전체 데이터셋 중 약 10-20%를 차지합니다.
  3. 테스트 데이터셋(Test Dataset):

    • 모델의 최종 성능을 평가하는 데 사용됩니다.
    • 모델의 훈련 및 검증이 끝나면 테스트 데이터셋을 사용하여 모델의 일반화 성능을 평가합니다.
    • 일반적으로 전체 데이터셋 중 약 10-20%를 차지합니다.

과적합이란?

기계 학습에서 모델이 훈련 데이터에만 과도하게 적합되어 새로운 데이터에 대한 성능이 저하되는 현상
발생하는 이유
1. 모델이 너무 복잡한 경우
2. 훈련 데이터가 적은 경우
3. 모델이 학습 데이터에서 반복적으로 훈련되는 경우

과적합 방지로 학습 자동 중단 하는 법

import tensorflow as tf

# 훈련 데이터, 검증 데이터 준비
train_data = ...
val_data = ...

# 모델 정의 및 초기화
model = ...

# optimizer, loss, metrics 설정

# 조기 종료 콜백 함수 정의
early_stop_callback = tf.keras.callbacks.EarlyStopping(monitor='val_loss', patience=5)

# 모델 훈련
history = model.fit(train_data,
                    epochs=100,
                    validation_data=val_data,
                    callbacks=[early_stop_callback])
profile
어차피 내일 쓸려고 미룰텐데 걍 오늘 쓰자

0개의 댓글