"내일배움캠프" 파이썬 전처리 시각화

신주연·2025년 6월 9일

데이터 전처리란?

주요 라이브러리

import pandas as pd

데이터 불러오기
df = pd.read_csv("data.csv")
결측치 처리
df = df.dropna() # 결측행 삭제
또는
df["컬럼명"].fillna(df["컬럼명"].mean(), inplace=True) # 평균으로 대체
데이터 타입 변경
df["date"] = pd.to_datetime(df["date"])
이상치 제거 (예: 99% 이상 값 제거)
df = df[df["value"] < df["value"].quantile(0.99)]

시각화란?

주요 라이브러리

import matplotlib.pyplot as plt
import seaborn as sns

히스토그램

상관관계 히트맵

sns.heatmap(df.corr(), annot=True, cmap="coolwarm")
plt.title("Feature Correlation")
plt.show()

박스플롯으로 이상치 확인

sns.boxplot(x="gender", y="income", data=df)
plt.title("Income by Gender")
plt.show()

전처리 + 시각화 활용 예시

결측치 시각화

데이터 분포 시각화

변수 간 관계 시각화