훈련 데이터와 검증 데이터 나누는 법

김우빈·2022년 6월 1일
0

JUST DEEP_HINT

목록 보기
3/6
post-thumbnail

데이터 나누는 코드

#sklearn 의 스플릿사용
from sklearn.model_selection import train_test_split

x_train, x_valid, y_train, y_valid = train_test_split(arrays, test_size, train_size, random_state, shuffle, stratify)

파라미터

  • arrays : 분할시킬 데이터를 입력 (Python list, Numpy array, Pandas dataframe 등..)

  • test_size : 테스트 데이터셋의 비율(float)이나 갯수(int) (default = 0.25)

  • train_size : 학습 데이터셋의 비율(float)이나 갯수(int) (default = test_size의 나머지)

  • random_state : 데이터 분할시 랜덤으로 섞게되는데, 이를 위한 시드값입니다. 고정시 항상 같은 결과를 얻을 수 있습니다. (int나 RandomState로 입력)

  • shuffle : 셔플여부를 조정합니다. (default = True)

  • stratify : 지정한 Data의 비율을 유지합니다. 예를 들어, Label Set인 YY가 40%의 0과 50%의 1로 이루어진 이진 데이터셋일 때, stratify=Y로 설정하면 나누어진 데이터셋들도 0과 1을 각각 40%, 60%로 유지한 채 분할됩니다.

오늘도 깊은 하루 되세요!

profile
DeepLearning, MLOps

0개의 댓글