TIL_[Python] 타이타닉 데이터 분석 1

김희정·2023년 12월 6일

TIL

목록 보기
7/57
post-thumbnail

pandas 라이브러리 사용 선언

import pandas as pd
titanic = pd.read_table('파일경로',sep=',')

데이터 정제 작업

공백 수 확인

# 1.Null(공백) 데이터 파악하기
print(titanic.isnull().sum())

공백 데이터 제거

# 2. 공백 데이터 제거하기
titanic = titanic.dropna()

데이터 분석 작업

상관계수 구하기

corr=titanic.corr(method='pearson')

#결과 확인
corr
  • 상관계수란?
    상관관계 분석했을 때 나오는 -1~1사이의 숫자
    변수들 사이 통계적인 관계를 표현하기 위해 특정한 상관 관계의 정도를 수치적으로 나타냄

상관계수 Survived 요소가 1(최대)이 아닌 수만 불러오기

생존률x생존률의 상관관계를 확인할 필요가 없기 때문에

corr = corr[corr.Survived !=1]


matplotlib으로 분석 결과 시각화

matplotlib 사용 선언

import matplotlib.pyplot as plt

# 그래프 그리기
corr.plot()


모든 데이터의 상관계수가 그려진 모습
각 요소와 생존률에 대한 관계만 필요하기 때문에 이어서 추가로 작성 필요

그래프로 사용할 부분만 남기기

# Survived 만 그래프 그리기
corr['Survived'].plot()
# 필요없는 행 삭제(passengerid)
corr = corr.drop(['PassengerId'], axis ='rows')
corr['Survived'].plot()

막대 그래프로 변경

corr['Survived'].plot.bar()

결론

성별(Sex), 좌석등급(Pclass), 요금(Fare) 순으로 생존과 관련해서 가장 상관관계가 있음을 확인할 수 있었다.

profile
데이터 애널리스트가 되고 싶은

0개의 댓글