(3-4) EDA

Yongjoo Lee·2020년 12월 17일

EDA

Programmers 인공지능 데브코스

목록 보기

17/33

EDA (Exploratory Data Analysis)

탐색적 자료분석

데이터를 분석하는 기술적 접근은 많다.

그래서 방법론에 집중하다보면 데이터가 가진 본질적인 의미를 훼손할 수 있다 !

🔥 EDA → 데이터 그 자체만으로부터 인사이트를 얻어내는 접근법!

📌 EDA 과정에서는 다음과 같은 과정이 포함됨

통계적 수치 (통계학)
자료를 담는 numpy, pandas
시각화 과정

EDA의 Process

분석의 목적과 변수 확인
- 분석의 목적 : 분석 후 결과에 대한 의미 도출
- 변수 확인 : 각 컬럼들이 어떤 의미를 가지며 어떤 타입을 가지고 있고, 분석하는 데에 적절한지 확인
데이터 전체적으로 살펴보기
- 데이터간의 상관관계, 결측치(NA), 데이터의 사이즈(일반화하기에 적절히 큰지?) 파악
데이터의 개별 속성 파악하기
- 각 데이터의 개별 속성 (같은 값이어도 어느 컬럼에 들어가 있냐에 따라 달라짐) 파악

🔎EDA Example - Titanic Problem 🔗

분석하기에 굉장히 좋은 자료!

*분석의 목적과 변수 확인

분석의 목적
- 데이터에는 탑승객 정보와 그 사람의 생존 여부가 들어있다.
- 그렇다면, 살아남은 사람들은 어떤 특징을 가지고 있었을까?
변수 확인

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fcd1a9b5a-dff4-4662-a30e-2def2588149d%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fcd1a9b5a-dff4-4662-a30e-2def2588149d%2Fimage.png)

Variable : 열 이름, Definition : 열에 대한 정보, Key : 숫자로 인코딩되어있는 경우 그 숫자가 무엇을 나타내는 지를 뜻함
1. survival : 생존 여부
2. pclass : 탑승 티켓의 등급
3. sex : 성별
4. age : 나이
  - Variable notes - 1살보다 어리면 분수로, 추정치라면 xx.5로 표현됨
5. sibsp : 형제자매나 배우자가 몇명이 타고 있는지
6. parch : 부모님이나 자식이 몇명이 타고 있는지
7. ticket : 티켓 번호
8. fare : 탑승객이 지불한 요금
9. cabin : 승무원 번호
10. embarked : 탑승한 항구
  
  ![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F29f3e375-330e-4112-a2e3-83b62b325dbe%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F29f3e375-330e-4112-a2e3-83b62b325dbe%2Fimage.png)

Exploratory Data Analysis

탐색적 데이터 분석을 통해 데이터를 통달해봅시다. with Titanic Data

라이브러리 준비
분석의 목적과 변수 확인
데이터 전체적으로 살펴보기
데이터의 개별 속성 파악하기

0. 라이브러리, 데이터 준비

# 라이브러리 불러오기

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

# 데이터 블러오기
# 동일 경로에 "train.csv"가 있는 경우

titanic_df = pd.read_csv("./train.csv")

1. 분석의 목적과 변수 확인

타이타닉 호에서 생존한 생존자들은 어떤 사람들일까?

# 상위 5개 데이터 확인하기

titanic_df.head(5)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fe6adb4bd-c256-43ae-a544-a34c31da71be%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fe6adb4bd-c256-43ae-a544-a34c31da71be%2Fimage.png)

Cabin 에 결측치(NaN)가 존재하는 것에 유의!
- 결측치가 의미하는 바에 따라 처리해주어야 함.

# 각 Column의 데이터 타입 확인하기

titanic_df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

2. 데이터 전체적으로 살펴보기

📌수치형 데이터 요약 보기

DataFrame.describe()
수치형 데이터만 요약해주기 때문에 Name, Ticket 와 같은 object 자료형은 제공하지 않는다!

# 데이터 전체 정보를 얻는 함수 : .describe()

titanic_df.describe() # 수치형 데이터에 대한 요약만을 제공!

count 개수 / mean 평균 / std 표준편차 / min 최소 / Q 백분위 / max 최대

👉 데이터 살펴보기

PassengerId
- 인덱스이기 때문에 큰 의미가 없다.
Survived
- 0, 1로 구성되어있는 이진데이터
- (예상) 평균이 0.5보다 작기 때문에 생존하지 못한사람이 더 많을 것이다.
Pclass
- 범주형 데이터이기 때문에 큰 의미를 가지지 않는다.
Age
- 평균 29.5, 표준편차 14.5, 최소나이 0.4, 최대나이 80
SibSp
- 최대 8 (대가족?이려나...)
Parch
- 최대 6 (대가족?이려나...)
Fare
- (예상) 평균 32.2, 표준편차 49 인데, 최소가 0이고 최대가 512인 것은 차이가 너무 크므로 이상점(outlier)라고 볼 수 있다.

📌
상관계수 확인

DataFrame.corr()
$x_1$ 와 $x_2$ 의 상관관계

# 상관계수 확인!

titanic_df.corr()

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Ffc0a33dc-b899-4809-b8cc-f85b7e908c00%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Ffc0a33dc-b899-4809-b8cc-f85b7e908c00%2Fimage.png)

👉 데이터 살펴보기

Pclass - Fare
- 높은 등급(값이 낮음)일수록 요금이 비쌀 수 있다.
Pclass - Survived
- 높은 등급의 사람들의 생존율이 더 높을 수 있다.

🔥 Correlation is NOT Causation

상관성 : A가 올라갈수록 B가 올라감
인과성 : A로 인해 B가 됨.

인과가 아니므로 높은 등급인 사람의 생존률이 높다고 무조건 단정하면 안됨!

📌
결측치 확인

DataFrame.isnull()
통계함수 (sum())를 이용하면 보기 편하다.

# 결측치 확인

titanic_df.isnull().sum()
# Age, Cabin, Embarked에서 결측치 발견!

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

👉 결측치를 어떻게 처리할 지 정해야함!

특정 값으로 대체할지
하나의 데이터로 판단할지
제거할지

3. 데이터의 개별 속성 파악하기

I. Survived Column

# 생존자, 사망자 수는?

titanic_df['Survived'].value_counts()

0    549
1    342
Name: Survived, dtype: int64

# 생존자 수, 사망자 수를 Barplot으로 그려보기 sns.countplot()

sns.countplot(x='Survived', data=titanic_df)
plt.show()

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fe13c6aa9-744b-4d3d-baf8-a18880aa0d85%2Foutput_22_0.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fe13c6aa9-744b-4d3d-baf8-a18880aa0d85%2Foutput_22_0.png)

II. Pclass

# Pclass에 따른 인원 파악

titanic_df[['Pclass', 'Survived']].groupby(['Pclass']).count()

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fc4c52063-ab69-4de6-b5b2-c28024189df7%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fc4c52063-ab69-4de6-b5b2-c28024189df7%2Fimage.png)

# Pclass 별 생존자 인원은?

titanic_df[['Pclass', 'Survived']].groupby(['Pclass']).sum()

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F8b57b6c3-7d1c-4b19-94f9-3e6e42b3b135%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F8b57b6c3-7d1c-4b19-94f9-3e6e42b3b135%2Fimage.png)

# 전체 인원 대비 Pclass 별 생존자 비율은?

titanic_df[['Pclass', 'Survived']].groupby(['Pclass']).mean()

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fdabb48f0-b50d-4968-8963-b52b89ae266a%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fdabb48f0-b50d-4968-8963-b52b89ae266a%2Fimage.png)

# 히트맵 활용

sns.heatmap(titanic_df[['Pclass', 'Survived']].groupby(['Pclass']).mean())
plt.show()

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F96cc45e7-9eeb-4c14-8298-fcbd08882c93%2Foutput_27_0.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F96cc45e7-9eeb-4c14-8298-fcbd08882c93%2Foutput_27_0.png)

III. Sex

titanic_df.groupby(['Survived', 'Sex']).count()

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F4f5db40e-fc66-495e-94c6-ead109cd497d%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F4f5db40e-fc66-495e-94c6-ead109cd497d%2Fimage.png)

# sns.catplot

sns.catplot(x='Sex', col='Survived', kind='count', data=titanic_df)
plt.show()

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F19d6183c-0705-49e0-8e69-da8c02af343a%2Foutput_30_0.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F19d6183c-0705-49e0-8e69-da8c02af343a%2Foutput_30_0.png)

IV. Age

(유의) 결측치 존재!

titanic_df.describe()['Age']

count    714.000000
mean      29.699118
std       14.526497
min        0.420000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: Age, dtype: float64

# Suvived 1, 0 과 Age의 경향성

fig, ax = plt.subplots(1, 1, figsize=(10, 5))
sns.kdeplot(x=titanic_df[titanic_df['Survived'] == 1]['Age'], ax=ax)
sns.kdeplot(x=titanic_df[titanic_df['Survived'] == 0]['Age'], ax=ax)

plt.legend(['Survived', 'Dead'])

plt.show()

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fcf1902d4-9542-4659-a929-ffcd836d35a4%2Foutput_33_0.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fcf1902d4-9542-4659-a929-ffcd836d35a4%2Foutput_33_0.png)

여기까지는 단일 요소와 Survived에 대한 단일 비교를 해보았다.

복합적인 요소에도 분석을 할 수 있다.
👇

Appendix I. Sex + Pclass vs Survived

복합적인 요소를 표현할 때에는 catplot을 많이 사용!

sns.catplot(x='Pclass', y='Survived', kind='point', data=titanic_df)

plt.show()

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F5f9c3c52-815b-4744-abde-c7e00047fe49%2Foutput_36_0.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F5f9c3c52-815b-4744-abde-c7e00047fe49%2Foutput_36_0.png)

hue 옵션을 추가하면 특정 컬럼을 기준으로 나눠서 파악하기 용이하다!

sns.catplot(x='Pclass', y='Survived', hue='Sex', kind='point', data=titanic_df)

plt.show()

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Ff719ff5c-e8e4-4760-b80c-2f8570dd6cb8%2Foutput_38_0.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Ff719ff5c-e8e4-4760-b80c-2f8570dd6cb8%2Foutput_38_0.png)

그래프는 pclass 별 생존자에 대한 추정치를 나타냄

👉 pclass가 높을 수록 생존자인 비율이 더 높다!

Appendix II. Age + Pclass

# Age graph with Pclass

titanic_df['Age'][titanic_df.Pclass == 1].plot(kind='kde')
titanic_df['Age'][titanic_df.Pclass == 2].plot(kind='kde')
titanic_df['Age'][titanic_df.Pclass == 3].plot(kind='kde')

plt.legend(['1st class', '2nd class', '3rd class'])

plt.show()

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fc3221e99-105b-4199-b9c5-f85751db6a17%2Foutput_41_0.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fc3221e99-105b-4199-b9c5-f85751db6a17%2Foutput_41_0.png)

👉 클래스가 높은 등급일수록 나이대가 높다!