https://www.kaggle.com/datasets/vinicius150987/titanic3
캐글에서 타이타닉 데이터를 활용해서 데이터셋 확인 실습을 해보자.

헷갈리는 단어
여기서 특성 엔지니어링이란?
불쾌지수와 같이 수치로 나타내기 애매한 지수를 특성을 기준으로 만드는 것.
여기서는 생존특성을 만들어볼 예정이다.


판다스 호출
import pandas as pd
타이타닉 엑셀파일 호출
titanic_df = pd.read_excel('titanic3.xls')
titanic_df

titanic_df.info()

어디에 결측치가 있는지 확인 됨.
body를 보자면 1309데이터 중 시신을 121개만 찾았다고 볼 수 있다.
분석을 위해 데이터 프레임을 만들어보자.
분석하기 쉽게
1.이름을 인덱스로 두는 데이터 프레임을 만들었다.
titanic_df.set_index('name',inplace=True)
titanic_df
2.인덱스를 이름순으로 나열하겠다.
titanic_df.sort_index()

해당 코드는 대소문자를 구분하기 때문에 안하는 코드로 재설정.
titanic_df = titanic_df.sort_index(key= lambda x: x.str.lower())
titanic_df
