데이터 분리하기

최지안·2024년 9월 23일

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

데이터 분리하기

zip 함수를 이용하여 분리

X, y = zip(['a', 1], ['b', 2], ['c', 3])
print('X 데이터 :',X)
print('y 데이터 :',y)

X 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)

데이터프레임을 이용하여 분리

values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

X = df['메일 본문']
y = df['스팸 메일 유무']

numpy를 이용하여 분리하기

np_array = np.arange(0,16).reshape((4,4))
print('전체 데이터 :')
print(np_array)

X = np_array[:, :3]
y = np_array[:,3]

print('X 데이터 :')
print(X)
print('y 데이터 :',y)

사이킷 런을 이용하여 분리

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state=1234)

X : 독립 변수 데이터. (배열이나 데이터프레임)

y : 종속 변수 데이터. 레이블 데이터.

test_size : 테스트용 데이터 개수를 지정한다. 1보다 작은 실수를 기재할 경우, 비율을 나타낸다.

train_size : 학습용 데이터의 개수를 지정한다. 1보다 작은 실수를 기재할 경우, 비율을 나타낸다.

random_state : 난수 시드

최지안

이전 포스트

Pandas & Numpy

다음 포스트

데이터 분리하기

데이터 분리하기

zip 함수를 이용하여 분리

데이터프레임을 이용하여 분리

numpy를 이용하여 분리하기

사이킷 런을 이용하여 분리

Pandas & Numpy

텐서 조작하기

0개의 댓글