타이타닉 생존자 예측

JERRY·2025년 4월 1일
0

Machine Learning

목록 보기
3/31
post-thumbnail

디카프리오는 정말 살 수 없었나?

[ 타이타닉 ]

1. 요약 정리

2. 시설

3. 구조

- 데이터

- 컬럼의 의미


데이터 탐색적 분석 - EDA

1. 데이터 읽기

2. 생존 상황 → 38.2%의 생존률

3. 성별에 따른 생존 상황은? → 남성의 생존 가능성이 더 낮다

4. 경제력 대비 생존률

  • 1등실의 생존 가능성이 아주 높다
  • 그런데 여성의 생존률도 높다
  • 그럼, 1등실에는 여성이 많이 타고 있었나?

5. 선실 등급별 성별 상황 → 3등실에는 남성이 많았다. (특히 20대 남성)

6. 그러면 나이별 승객 현황도 확인해보자 → 아이들과 20~30대가 많았다

7. 그러면 등실별 생존률을 연령별로 관찰해 보자 → 확실히 선실 등급이 높으면 생존률이 높은 듯 하다

8. 나이를 5단계로 정리하기

9. 나이, 성별, 등급별 생존자 수를 한번에 파악할 수 있을까? → 어리고, 여성이고, 1등실일 수록 생존하기 유리했을까?

10. 남/여 나이별 생존 상황을 보다 더 들여다보자

11. 탑승객의 이름에서 신분을 알 수 있다

12. 정규식을 이용해서 문장 사이의 신분에 대한 정보를 얻을 수 있다

13. 살짝 응용하면 사회적 신분만 얻을 수 있다

14. 성별별로 본 귀족

15. 사회적 신분을 조금 더 정리하자


머신러닝을 이용한 생존자 예측

1. 간단히 구조확인

2. 머신러닝을 위해 컬럼을 숫자로 변경 (Label Encode 사용)

3. 결측치는 어쩔 수 없이 포기

4. 상관관계

5. 먼저 특성을 선택하고, 데이터를 나누자

6. DecisionTree

7. 디카프리오 & 윈슬릿의 생존률

0개의 댓글