EDA I : 탐색적 데이터 분석

임동윤·2022년 10월 14일
0
post-thumbnail
post-custom-banner

탐색적 데이터 분석 - EDA


EDA?

  • 데이터 그 자체만으로부터 인사이트를 얻어내는 접근법

EDA의 Process

  1. 분석의 목적과 변수 확인
  2. 데이터 전체적으로 살펴보기
  3. 데이터의 개별 속성 파악하기

EDA with Example - Titanic

EDA Example

  • Titanic Problem

분석의 목적과 변수 확인

  1. 분석의 목적 확인

    • 살아남은 사람들은 어떤 특징을 가지고 있을까?
  2. 변수 확인


실습

0. 라이브러리 준비

  • 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline
  • 데이터 불러오기
titanic_df = pd.read_csv("./EDA/titanic/train.csv")

1. 분석의 목적과 변수 확인

  • 타이타닉 호에서 생존한 사람들은 어떤 사람들일까?
  • 상위 5개 데이터 확인하기
titanic_df.head(5)

  • 각 Column의 데이터 타입 확인하기
titanic_df.dtypes
PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

2. 데이터 전체적으로 살펴보기

  • 데이터 전체 정보를 얻는 함수 : .describe()
titanic_df.describe() # 수치형 데이터에 대한 요약만을 제공

  • 상관계수 확인
  • Correlation is NOT Causation
    • 상관성 : A up, B up, ...
    • 인과성 : A - > B
titanic_df.corr()

  • Age, Cabin, Embarked 에서 결측치 확인
titanic_df.isnull().sum()
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

profile
AI Tensorflow Python
post-custom-banner

0개의 댓글