여러 기법들로 데이터를 읽다보면 이 데이터의 본질적 의미를 망각할 수 있다.
따라서 EDA를 통해 데이터 그 자체를 읽는다.
raw 데이터의 통계적 수치, 시각화 등
1. 분석의 목적과 변수(=colum) 확인
2. 데이터 전체적으로 살펴보기
데이터 간 상관관계, NA가 없는지(결측치)등 확인
3. 데이터의 개별 속성 파악하기
개별 속성이 어떤 의미를 가지는지, 속성이 적절히 매칭되어있는지
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
>> matplotlib를 반드시 인라인에서 사용하겠다
titanic_df = pd.read_csv("./train.csv")
1. 분석의 목적과 변수(=colum) 확인
: 살아남은 사람들은 어떤 특징을 가지고 있을까?
2. 데이터 전체적으로 살펴보기
titanic_df.describe()
>> 수치형 데이터에 대한 요약 정보를 제공
titanic_df.corr()
>> 상관계수 확인 (두 변수 사이의 통계적 관계를 표현)
음수 : 반비례 관계/ 양수: 비례관계 (주의 : 상관성과 인과성을 구분해야함.)
titanic_df.isnull()
>> 결측치 확인
True: null(빈값)
titanic_df.isnull().sum()
Age, Cabin, Embarked에서 결측치 발견