분석의 목적 확인
변수 확인
- 라이브러리 불러오기
import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline
- 데이터 불러오기
titanic_df = pd.read_csv("./EDA/titanic/train.csv")
- 상위 5개 데이터 확인하기
titanic_df.head(5)
- 각 Column의 데이터 타입 확인하기
titanic_df.dtypes
PassengerId int64 Survived int64 Pclass int64 Name object Sex object Age float64 SibSp int64 Parch int64 Ticket object Fare float64 Cabin object Embarked object dtype: object
- 데이터 전체 정보를 얻는 함수 : .describe()
titanic_df.describe() # 수치형 데이터에 대한 요약만을 제공
- 상관계수 확인
- Correlation is NOT Causation
- 상관성 : A up, B up, ...
- 인과성 : A - > B
titanic_df.corr()
- Age, Cabin, Embarked 에서 결측치 확인
titanic_df.isnull().sum()
PassengerId 0 Survived 0 Pclass 0 Name 0 Sex 0 Age 177 SibSp 0 Parch 0 Ticket 0 Fare 0 Cabin 687 Embarked 2 dtype: int64