1. 요약 정리
2. 시설
3. 구조
- 데이터
- 컬럼의 의미
1. 데이터 읽기
2. 생존 상황 → 38.2%의 생존률
3. 성별에 따른 생존 상황은? → 남성의 생존 가능성이 더 낮다
4. 경제력 대비 생존률
5. 선실 등급별 성별 상황 → 3등실에는 남성이 많았다. (특히 20대 남성)
6. 그러면 나이별 승객 현황도 확인해보자 → 아이들과 20~30대가 많았다
7. 그러면 등실별 생존률을 연령별로 관찰해 보자 → 확실히 선실 등급이 높으면 생존률이 높은 듯 하다
8. 나이를 5단계로 정리하기
9. 나이, 성별, 등급별 생존자 수를 한번에 파악할 수 있을까? → 어리고, 여성이고, 1등실일 수록 생존하기 유리했을까?
10. 남/여 나이별 생존 상황을 보다 더 들여다보자
11. 탑승객의 이름에서 신분을 알 수 있다
12. 정규식을 이용해서 문장 사이의 신분에 대한 정보를 얻을 수 있다
13. 살짝 응용하면 사회적 신분만 얻을 수 있다
14. 성별별로 본 귀족
15. 사회적 신분을 조금 더 정리하자
1. 간단히 구조확인
2. 머신러닝을 위해 컬럼을 숫자로 변경 (Label Encode 사용)
3. 결측치는 어쩔 수 없이 포기
4. 상관관계
5. 먼저 특성을 선택하고, 데이터를 나누자
6. DecisionTree
7. 디카프리오 & 윈슬릿의 생존률