훈련 데이터와 검증 데이터 나누는 법

김우빈·2022년 6월 1일

DeepLearning hint python sklearn tensorflow

JUST DEEP_HINT

목록 보기

3/6

데이터 나누는 코드

#sklearn 의 스플릿사용
from sklearn.model_selection import train_test_split

x_train, x_valid, y_train, y_valid = train_test_split(arrays, test_size, train_size, random_state, shuffle, stratify)

파라미터

arrays : 분할시킬 데이터를 입력 (Python list, Numpy array, Pandas dataframe 등..)
test_size : 테스트 데이터셋의 비율(float)이나 갯수(int) (default = 0.25)
train_size : 학습 데이터셋의 비율(float)이나 갯수(int) (default = test_size의 나머지)
random_state : 데이터 분할시 랜덤으로 섞게되는데, 이를 위한 시드값입니다. 고정시 항상 같은 결과를 얻을 수 있습니다. (int나 RandomState로 입력)
shuffle : 셔플여부를 조정합니다. (default = True)
stratify : 지정한 Data의 비율을 유지합니다. 예를 들어, Label Set인 $Y$ 가 40%의 0과 50%의 1로 이루어진 이진 데이터셋일 때, stratify=Y로 설정하면 나누어진 데이터셋들도 0과 1을 각각 40%, 60%로 유지한 채 분할됩니다.

오늘도 깊은 하루 되세요!

김우빈

DeepLearning, MLOps

이전 포스트

딥 러닝 모델 or 가중치(weight) 불러오는법

다음 포스트

훈련 데이터와 검증 데이터 나누는 법

JUST DEEP_HINT

데이터 나누는 코드

파라미터

딥 러닝 모델 or 가중치(weight) 불러오는법

딥 러닝 모델의 다양한 metric 확인하는법

0개의 댓글