EDA 알아보기

박병규·2021년 7월 25일
0

인공지능_부트캠프

목록 보기
10/17
post-thumbnail

EDA?

데이터 그 자체만으로부터 인사이트를 얻어내는 접근법! ← 시각화

EDA 과정

  1. 분석의 목적과 변수 확인
  2. 데이터 전체적으로 살펴보기 → 상관 관계
  3. 데이터의 개별 속성 파악하기

데이터 살펴보기

각 Column의 데이터 타입을 보여준다

df.dtypes

데이터 전체적으로 살펴보기

데이터에 대한 요약을 제공해준다.

df.describe()

상관관계 확인해보기

df.corr()

결측치 확인

sum(), count()을 붙여줘 합을 확인할 수 있다.

df.isnull()

데이터 개별 속성 파악해보기

조건에 대한 개수에 대해 알 수 있다.

df['조건'].value_counts()

titanic data 분석해보기

생존자 분석

  • sns.countplot를 이용해서 titanic 데이타의 생존자 수와 사망자 수를 막대그래프로 표현하였다.
  • 2개의 데이터를 비교하는 것이므로 막대그래프를 이용하였다.

좌석 등급에 따른 생존률 표현

  • sns.heatmap()를 통해서 좌석 등급별로 생존률을 시각화 하였다.
  • titanic_df[['Pclass','Survived']].groupby(['Pclass']).mean()를 통해서 2개의 기준에 대해서 groupby를 해주었다.

성별과 생존자수 비교

  • sns.catplot()을 이용하여 성별에 따른 생존자 수를 비교하였다.
  • catplot를 이용하여 survived가 0과 1일때를 잘 나타내주었다.

나이와 생존자수 비교

-sns.kdeplot()를 이용하여 나이에 따른 생존자수와, 사망자 수를 시각화 하였다.

profile
computer science student

0개의 댓글