Exploratory Data Analysis

김교태·2024년 5월 18일

EDA(Exploratory Data Analysis)

탐색적 데이터 분석: 데이터셋을 다양한 관점에서 살펴보고 탐색하면서 인사이트를 도출하는 것

  • 각 row는 무엇을 의미하는가?
  • 각 column은 무엇을 의미하는가?
  • 각 column은 어떤 분포를 보이는가?
  • 두 column은 어떤 연관성이 있는가? 등의 다양한 방법이 있음

EDA에는 공식이 없음
시각적인 방법, 통계적인 방법 등 데이터를 파악할 수 있는 다양한 방법으로 데이터를 파악하는 것
(시각적 방법이 가장 많이 사용됨)

상관 관계 분석

df.corr() # 모든 column들간에 어떤 연관성이 있는지 나옴

df.corr()[column].sort_values(ascending = False)
# 특정 column에 대해 가장 많은 연관성이 있는 순서로 보여줌

#pandas 2.0.0 버전 이상을 쓰는 경우 corr() 함수 기본 설정이 달라서 오류가 날 수 있음
이 경우 df.corr() 대신 df.corr(numeric_only = True)를 이용하면 됨

클러스터 분석(Cluster Analysis)

데이터들을 몇가지 무리로 분류하는 것
Seaborn의 Clustermap

sns.clustermap(df.corr())
profile
공부중입니다

0개의 댓글