EDA

Sally·2026년 3월 24일

EDA란?

  • Exploatory Data Analysis
  • 데이터를 살펴보는 행동을 전부 EDA라고 한다
    -ex. 통계치를 출력해서 살펴보기, 값을 차트로 그려서 시각화된 데이터로 살펴보기 등

EDA는 Pandas와 Seaborn으로 하는 것이 좋다.

  • Pandas : 데이터의 뼈대를 잡는 도구
    • 데이터를 표 형태로 다루는 데 최적화되어 있음
  • Seaborn : 데이터의 맥락을 보여주는 도구
    • Python의 기본 시각화 라이브러리인 Matplotlib이 '붓과 도화지'라면, Seaborn은 '고급 필터가 장착된 카메라'와 같다.
    • 복잡한 계산 없이도 회귀선(regplot), 밀도 추정(kdeplot), 오차 막대 등을 자동으로 그려주는 등의 기능
    Pandas의 기능
  • df.tail(5) : 마지막 5개 출력
  • df.info() : 데이터프레임의 요약된 설계도 -> 중요한 정보 확인 가능
    • Non-Null Count : 결측치 (Missing Value) 개수 알 수 있음
  • df.describe(): 평균, 최소, 최댓값 등 실제 수치 정보를 알 수 있음

데이터에서 상관관계 찾기

  • Correlationi Coefficient (상관계수) : 두 변수가 얼마나 상관이 있는지, 수치로 출력하는 것

  • 상관계수는 -1 ~ 1 사이의 값을 갖는다.

    • +1 : 완전한 야의 상관 관계
    • 0 : 상관 없음
    • -1 : 완전한 음의 상관 관계

상관관계 확인하기 - 히트맵

import numpy as np
import seaborn as sns

df = sns.load_dataset("mpg")

# 상관계수 행렬 계산
corr = df.corr(numeric_only=True)
print(corr)

# 히트맵 출력
sns.heatmap(corr, annot=True, cmap="coolwarm", linewidths=1)
print()

  • 히트맵(Heatmap) : 데이터의 수치 높고 낮음을 색상의 진하기(온도)로 표현한 시각화 도구

깔끔하게 표현하기

import numpy as np
import seaborn as sns

df = sns.load_dataset("mpg")

# 상관계수 행렬 계산
#  데이터에서 숫자끼리만 계산하라는 뜻
corr = df.corr(numeric_only=True)

# 삼각형 마스크 만들기 (상단 삼각형 가리기)
mask = np.triu(np.ones_like(corr, dtype=bool))
print(mask)

# 히트맵 출력
sns.heatmap(corr, mask=mask, annot=True, cmap="coolwarm", linewidths=1)
print()

  • 중복되는 부분은 마스크를 통해 가리고 위와 같이 깔끔하게 표현할 수 있다.

분포

  • 데이터가 퍼져있는 보양
  • 대표적으로 평균, 분산, 표준편차, 왜도, 첨도가 있음

분산

  • 평균 기준으로 얼마나 퍼져있는지를 수치로 나타낸 것
  • 평균 차이들의 제곱

pairplot

import seaborn as sns
import matplotlib.pyplot as plt

df = sns.load_dataset("mpg")

# 마력에 결측치 제거 (pairplot은 결측치(NaN)값 있으면 에러 납니다.)
df = df.dropna(subset=["horsepower"]) # dropna (na는 not available): 결측치 제거

# pairplot 시각화
help(sns.pairplot)
sns.pairplot(df[["weight", "horsepower", "acceleration"]], corner=True, kind="reg", plot_kws={'line_kws': {'color': 'red'}}, diag_kind='kde')
print()

  • pairplot : 데이터프레임 내의 모든 숫자형 변수들끼리 짝(Pair)을 지어, 그 관계를 한눈에 보여줌.

0개의 댓글