[Deep Learning] Data Preprocessing

김희진·2021년 4월 8일

DeepLearning

목록 보기

12/12

📖 케라스 창시자에게 배우는 딥러닝 (프랑소와 숄레, 박해선, 길벗) 참고

데이터 전처리

Vectorization

신경망에서 모든 입력과 타깃은 부동 소수 데이터로 이루어진 텐서여야 한다. 처리해야 하는 데이터를 텐서로 변환하는 단계를 데이터 벡터화라고 한다.

Normalization

데이터의 각 특성들이 범위가 제각각이면 학습에 영향을 주기 때문에 비슷한 범위를 가지도록 처리해주어야 한다. 정규화를 통해 각 특성을 평균이 0이고 표준 편차가 1이 되도록 처리해준다.

from sklearn.preprocessing import MinMaxScaler

scaler1 = MinMaxScaler()
X_normalization = scaler1.fit_transform(X)

표준화

from sklearn.preprocessing import StandardScaler

scaler2 = StandardScaler()
X_standardization = scaler2.fit_transform(X)

Missing Value

데이터의 일부 값이 누락된 경우가 종종 있다. 이러한 누락된 값을 처리해주어야 한다.

DF.isnull() # 결측치를 True로 출력

DF.isnull().sum(axis=0) # 각 열 별 결측치 개수 확인, 행 방향
DF.isnull().sum(axis=1) # 열 방향

DF.dropna(thresh=100, axis=1) # 결측치 100개 이상인 열 삭제
DF.dropna(subset=['column_name'], how='any', axis=0) # 결측치가 한 개라도 있는 행 삭제

# 결측치를 평균값으로 치환
DF['column_name'].fillna(int(DF['column_name'].mean(axis=0)), inplace=True)

# 결측치를 최빈값으로 치환
most_freq = DF['column_name'].value_counts(dropna=True).idxmax()
DF['column_name'].fillna(most_freq, inplace=True)

# 결측치를 이전 데이터 포인트로 치환
DF['column_name'].fillna(method='ffill', inplace=True)

# 결측치를 다음 데이터 포인트로 치환
DF['column_name'].fillna(method='bfill', inplace=True)

김희진

이전 포스트

[Deep Learning] Data Preprocessing

DeepLearning

데이터 전처리

Vectorization

Normalization

Missing Value

[Deep Learning] Overfitting, Underfitting

0개의 댓글

관련 채용 정보