print(df.isnull().sum()) #결측치 확인
df_dropped = df.dropna() #결측치 포함 행 제거
df_droped_age = df.dropna(subset=['나이']) #특정 칼럼에 빈칸 제거
라벨 인코딩 : 카테고리마다 고유한 숫자 부여, 숫자의 크기를 가치나 순위로 오해할 가능성 있음
원-핫 인코딩 : 카테고리 종류만큼 컬럼을 만들고 해당하는 컬럼에는 1, 나머지는 모두 0을 채우는 방식, 카테고리 종류가 많으면 너무 커짐
df_encoded = pd.get_dummies(df, columns=['성별', '탑승항구'], dtype=int)
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
test data 스케일링 시에는 scaler.transform(X_test) 사용
실습 결과물 링크
타이타닉 데이터를 이용해 데이터 전처리 후 모델학습 결과 확인

이상치 처리 : 박스플롯으로 이상치를 확인한 뒤, IQR을 구하여 이상치를 제거하였다.


인코딩 : 성별(Sex)는 두가지 범주형 변수이므로 라벨인코딩을 진행하였고, Embarked 변수는 범주가 3가지 이기 때문에 원-핫 인코딩을 진행했다.

스케일링 : standardscaler를 진행하였다.

