탐색적 데이터 분석: 데이터셋을 다양한 관점에서 살펴보고 탐색하면서 인사이트를 도출하는 것
EDA에는 공식이 없음
시각적인 방법, 통계적인 방법 등 데이터를 파악할 수 있는 다양한 방법으로 데이터를 파악하는 것
(시각적 방법이 가장 많이 사용됨)
df.corr() # 모든 column들간에 어떤 연관성이 있는지 나옴
df.corr()[column].sort_values(ascending = False)
# 특정 column에 대해 가장 많은 연관성이 있는 순서로 보여줌
#pandas 2.0.0 버전 이상을 쓰는 경우 corr() 함수 기본 설정이 달라서 오류가 날 수 있음
이 경우 df.corr() 대신 df.corr(numeric_only = True)를 이용하면 됨
데이터들을 몇가지 무리로 분류하는 것
Seaborn의 Clustermap
sns.clustermap(df.corr())