오늘은 데이터분석 competition사이트로 유명한 kaggle에서 가장 대표분석 주제인 titanic 데이터를 분석보았다. 목적은 생존자(survived)변수와 그 외 나머지 feature들의 관계를 파악해 생존자를 예측하는 것이다.
위 두 함수와 .dtypes(데이터 타입확인) 그리고 결측값을 확인하는 .isnull().sum() 함수는 데이터를 불러오면 습관적로 우선 확인하는게 좋을 것 같다.
타이타닉 데이터에서는 특히 correlation을 통해 Pclass(아마 티켓의 등급인듯)가 생존결과에 큰 영향을 준다고 예측할 수 있다.
1) 생존자 변수 : 안타깝게도 생존하지 못한사람(0)이 생존자(1) 보다 많다.
2) Pclass : 등급이 내려갈수록(1 -> 3등급) 생존자가 적다. 히트맵을 통해 비율도 볼 수 있다.