3주차 TIL - 데이터 전처리

김서연·2026년 4월 2일

① 오늘 배운 개념 / 주제

print(df.isnull().sum()) #결측치 확인

df_dropped = df.dropna() #결측치 포함 행 제거
df_droped_age = df.dropna(subset=['나이']) #특정 칼럼에 빈칸 제거

df_encoded = pd.get_dummies(df, columns=['성별', '탑승항구'], dtype=int)

scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)

test data 스케일링 시에는 scaler.transform(X_test) 사용

실습 결과물 링크
타이타닉 데이터를 이용해 데이터 전처리 후 모델학습 결과 확인

결측치 처리 : 결측치 현황을 확인한 뒤, age는 중앙값으로, Embarked는 최빈값으로, Cabin은 컬름을 삭제하는 방식으로 결측치를 처리했다.

이상치 처리 : 박스플롯으로 이상치를 확인한 뒤, IQR을 구하여 이상치를 제거하였다.
인코딩 : 성별(Sex)는 두가지 범주형 변수이므로 라벨인코딩을 진행하였고, Embarked 변수는 범주가 3가지 이기 때문에 원-핫 인코딩을 진행했다.
스케일링 : standardscaler를 진행하였다.

모델 학습 & 예측 : 불필요 칼럼 제거하고 x와 y를 분리하고 학습용과 테스트 데이터도 분리한다. 그 후 랜덤 포레스트 모델을 사용하여 예측을 수행한다.

데이터 전처리를 깔끔하고 정석적으로 수행하는 방법을 이해하게 되었다.
다양한 전처리 기법과 관련 패키지를 상황에 맞게 선택하는 기준을 알게 되었다.
전처리가 모델 전체 정확도의 정말 많은 부분을 결정한다는 것을 알고는 있었지만 정확히 얼마의 차이가 나는지 실습에서 눈으로 확인할 수 있어 좋았다.
프로젝트 당시에 깔끔하지 못한 코드를 사용해서 전처리를 했었는데, 이 방법을 사용해서 새로운 공모전에서 발전된 성적을 얻고 싶다.