import pandas as pd
titanic = pd.read_excel('titanic3.xls')
titanic.set_index('name',inplace=True)
titanic

titanic.columns

titanic.drop(columns=['home.dest','embarked','sibsp'], inplace=True)
titanic

del titanic['parch']
death = titanic['survived'] == 0
titanic[death]

살아있는 사람은 시신 식별번호가 없는 것은 당연
body_null = titanic['body'].isnull()
titanic[body_null]

사망자가 809명인데, 식별번호가 없는 명단이 688명이나 된다.
body_null = titanic['body'].isnull()
titanic[death & body_null]

notfound_listnotfound_list = titanic[death & body_null]
notfound_list

notfound_list['pclass'].value_counts()

3등급(하류층)이 많으나, 이건 당연할 수 있다. 비율을 구해보자.
titanic['pclass'].value_counts()

notfound_list.value_counts('pclass')/titanic['pclass'].value_counts()

실제로 3등급 인원이 많이 죽었다.
death = titanic['survived'] == 0
survived = titanic['survived'] == 1
pclass_3 = titanic['pclass'] == 3
death_pclass_3 = titanic[death & pclass_3]
survived_pclass_3 = titanic[survived & pclass_3]
#사망자의 하류층 티켓 가격 분포
death_pclass_3.describe()
#생존자의 하류층 티켓 가격 분포
survived_pclass_3.describe()
사망자

생존자

3등급에서 티켓가격의 차이가 생존유무와 관련성이 있어보이지 않는다.