[TIL] 타이타닉 승객 데이터 분석하기(excel ver.)

bmn.kim·2024년 9월 25일
0

데이터 배우기

목록 보기
4/8
post-thumbnail

링크텍스트

PassengerId - 각 승객에게 고유하게 부여된 번호

Survived - 승객의 생존 여부를 나타내는 변수 0은 사망, 1은 생존

Pclass - 승객이 탑승한 티켓의 등급

1: 1등석

2: 2등석

3: 3등석

Sex - 승객의 성별을 나타냅니다. = 값: male 또는 female

Age - 승객 나이

SibSp - 함께 탑승한 형제(Sibling) 또는 배우자(Spouse)의 수를

Parch - 함께 탑승한 부모(Parent) 또는 자녀(Children)의 수

Ticket - 승객이 사용한 티켓 번호

Fare - 승객이 지불한 탑승 요금을 나타내는 변수

Cabin - 승객이 배정받은 선실의 번호

Embarked - 승객이 탑승한 항구

C: Cherbourg

Q: Queenstown

S: Southampton

  • 요약
    • 평균 생존확률은 38%
    • 여성이 남성보다, 10대 및 20대 보다는 10대 미만에서 더 높은 생존율을 보임
    • 티겟 등급은 1등급에서 가장 많이 살아남음

전체 891명의 데이터 중 생존 확률은 38.4%로 평균생존확률이라고 할 수 있음

  • 성별 관련 데이터 분석

: 전체 성별 중 남성의 비율은 64.4%, 여성은 35.6%로 여성 대비 남성이 많지만 실제 성별에 따른 실제 생존확률은 여성이 74%, 남성이 18.89%로 월등하게 여성이 높음 > 여성을 우선적으로 살리거나 도왔을 가능성이 큼

  • 고객 티켓등급 데이터 분석

: 전체 성별 중 고객의 티켓등급별 분포는 3등급>1등급>2등급 순으로 많았으나
생존확률에 있어서는 1등급에 있는 사람들의 생존확률이 압도적으로 많았음.
1등급에 있는 사람들의 자리가 더 안전한데 위치했거나, 응급 대처가 더 좋았거나, 하여간 1등급에 있는 사람들이 더 많이 생존했음

  • 연령대별 데이터 분석

: 10대>20대>30대>40대 순으로 인구 분포는 되어 있으며, 평균 연령은 29.7세임
연령대별 생존 확률을 보았을 때는 10세 미만의 경우 생존확률이 가장 높았음(80대 이상의 생존 확률은 100%인데 총 1명 중 1명이 살았으므로 통계치에서 제외함)
10대와 20대의 생존확률이 30대 및 40대보다 떨어짐
10대/20대 자녀가 부모들을 살리고 희생했을 시나리오도 존재함

  • 연령 / 성별 데이터 분석
    남성의 경우 여성보다 생존확률이 적은데 10세 미만에서는 여성과 남성 모두 생존확률이 10대보다 높음
    10대 미만의 남자아이는 살리고 10대/20대 남성들이 희생한 것으로 보임
  • 연령 / 티켓등급 데이터 분석 생존확률의 큰 경향성은 연령별 구분에 따르지만 구체적인 특이사항으로는 10대에서 3급에 탄인원수가 최다이나 유독 생존확률이 저조하게 나타남.
  • 가족수별 데이터 분석

: 평균 가족수는 1.9명(본인과 자녀, 본인과 부모, 본인과 형제 자매 이런식의 조합이었을 것)
평균 생존율(38%)대비 2-4명의 가족 수에서 가장 많은 생존확율을 보이며 특히 4명 가족에서 생존확률이 가장 많다.

  • 선착위치별 데이터 분석

인원수 기준으로 보면 S 그룹이 가장 많이 차지하였으나 생존확률 기준으로는 C>Q>S 순으로 S가 가장 적게 생존하였음

profile
문과생의 sql 배우기 많은 관심 부탁드립니다

0개의 댓글