[TIL Day19] 데이터 씹고 뜯고 맛보고 즐기기 - EDA

이다혜·2021년 5월 13일
0

TIL

목록 보기
19/60

EDA(Exploratory Data Analysis); 탐색적 데이터 분석

데이터 그 자체만으로부터 인사이트를 얻어내는 접근법!

EDA의 Process

  1. 분석의 목적과 변수 확인

    • 분석의 목적을 명확히 하고 변수(column)의 데이터 타입 확인 및 의미 파악
  2. 데이터 전체적으로 살펴보기

    • 상관관계 분석, 결측치(NA) 확인, 데이터 사이즈 체크 등
  3. 데이터의 개별 속성 파악하기

    • 각각의 feature가 무엇인지, 분석에 있어서 속성을 바꿔줄 필요가 있는지 체크

Example Data를 바탕으로 EDA 진행하기

Titanic Dataset

1. 분석의 목적과 변수 확인

a. 분석의 목적 확인
살아남은 사람들은 어떤 특징을 가지고 있었을까?

b. 변수 확인

2. 데이터 전체적으로 살펴보기

  • .describe() 수치형 데이터 요약정보

  • .corr() 상관계수 확인

  • .isnull() 결측치 확인

3. 데이터의 개별 속성 파악하기

a. Survived Column

  • .value_counts() 범주형 변수에서 각 범주의 데이터가 몇개 있는지 확인

b. Pclass

  • sns.heatmap() pclass와 생존 비율의 상관관계 파악

c. Sex

  • sns.caplot() 성별과 생존여부에 따른 데이터 수

d. Age

  • sns.kdeplot() survived와 age의 경향성 확인

Appendix I. Sex + Pclass vs Survived

  • pclass에 따른 survived의 추정치와 신뢰구간 파악

Appendix II. Age + Pclass

  • pclass별 age 분포 확인
profile
하루하루 성장중

0개의 댓글