EDA

손문기·2021년 7월 22일
0

EDA?

  • 탐색적 자료 분석 (Exploratory data analysis)
    데이터 그자체 만으로부터 인사이트를 얻어내는 접근법으로 시각화, 통계적 수치, numpy, pandas등을 이용하여 자료를 보다 직관적으로 바라보는 과정이다.

EDA process

  1. 분석의 목적과 변수확인
    세부적인 정보 확인을 통해 데이터의 용도를 분석하고, 가설을 세울수 있다.

  2. 데이터 전체적으로 살펴보기
    결측값은 없는지, 상관관계는 어떠한지, 데이터의 양은 충분한지 등을 살펴보아야 한다.

  3. 데이터의 개별 속성 파악하기
    데이터의 속성이 의미하는것이 무엇인지 파악한다.

EDA Example

0. 라이브러리 준비하기

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

1. 분석의 목적과 변수 확인

2. 데이터 전체적으로 살벼보기

.describe() - 수치형 데이터에 대한 요약을 제공한다.

.corr() - 상관계수를 확인한다.

.isnull().sum() - 결측치를 확인한다.

3. 데이터의 개별 속성 파악하기

행복점수(Ladder score)와 GDP의 관계

  1. Ladder score과 Logged GDP per capita 값 확인하기

  2. 라인플룻을 활용하기

  3. 히트맵 활용하기

  4. polyfit 선형회귀를 활용하기

다양한 방법으로 알아본 결과 행복점수가 높을수록 GDP가 높은 경향이 있다는 결과를 도출해냈다!

0개의 댓글