
앞서 머신러닝은 "예측"을 하기위해 만들어졌다고 소개했다.
타이타닉 데이터셋은 Kaggle에서 모인 유명한 데이터셋으로 타이타닉호에 탄 승객들의 다양한 데이터를 가지고 있다. 우리는 이러한 데이터들을 기계학습을 통해 특정 속성을 가진 사람이 탑승을 했다면 생존의 유무를 예측하는 머신러닝 모델을 만들 수 있다.
타이타닉(Titanic)은 영국의 화이트 스타 라인이 운영한 북대서양 횡단 여객선이다. 1912년 4월 10일 영국의 사우샘프턴을 떠난 미국의 뉴욕으로 향하던 첫 항해 중에 4월 15일 빙산과 충돌하여 침몰하였다. 배에는 승객들을 태울 충분한 구명보트가 없었고, 타이타닉의 침몰로 2,224명의 승객 중 1,502명이 사망하였다.
빅데이터를 활용한 데이터 분석과정은 다음과 같다.
기획 → 데이터수집 → 데이터 전처리 → 모델 선택 → 평가 및 적용
위의 순서에 따라 타이타닉 데이터셋을 학습해본다.
분석에 앞서서 우리가 어떤걸 활용할지, 어떤 정보를 예측할지에 대한 계획을 세워야한다.
현재 사용할 데이터는 타이타닉 탑승자의 데이터이다.
탑승자의 성별, 나이, 탑승class 등등의 데이터를 가지고 생존의 유무를 예측 할 수 있을 것이다.
예측을 하기위해선 학습되는 데이터들을 잘 분류해야한다. 어떠한 속성이 생존에 영향을 주는지를 전처리 과정에서 잘 분류를 해야하고, 이상치나 결측치를 잘 걸러 전처리를 해야한다.
목표 : 타이타닉 승객 데이터로 생존 유무 예측하기
주의사항 : 생존에 영향을 주는 데이터 확보, 이상치와 결측치 제거
일반적으로 타이타닉 데이터셋은 google과 같은 사이트에서 쉽게 구할 수 있다. 우리는 seaborn 모듈에서 1차 정제된 데이터를 받아서 사용할 것이다.
# 모듈 불러오기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# =========================데이터 수집=========================
#seaborn안에 Tatanic data가 존재
df = sns.load_dataset('titanic')
print(df.shape) #행, 열 개수 확인