[28일차]DataFrame활용 - 1. 데이터셋 확인하기 - 타이타닉

김준석·2024년 1월 4일

https://www.kaggle.com/datasets/vinicius150987/titanic3

캐글에서 타이타닉 데이터를 활용해서 데이터셋 확인 실습을 해보자.

타이타닉 데이터 내용

헷갈리는 단어

여기서 특성 엔지니어링이란?

불쾌지수와 같이 수치로 나타내기 애매한 지수를 특성을 기준으로 만드는 것.

여기서는 생존특성을 만들어볼 예정이다.


타이타닉 데이터 실습 환경 구축

판다스 호출

import pandas as pd

타이타닉 엑셀파일 호출

titanic_df = pd.read_excel('titanic3.xls')
titanic_df


dtype 등 info 파악

titanic_df.info()

어디에 결측치가 있는지 확인 됨.

body를 보자면 1309데이터 중 시신을 121개만 찾았다고 볼 수 있다.


데이터프레임 준비

분석을 위해 데이터 프레임을 만들어보자.

분석하기 쉽게

1.이름을 인덱스로 두는 데이터 프레임을 만들었다.

titanic_df.set_index('name',inplace=True)
titanic_df

2.인덱스를 이름순으로 나열하겠다.

titanic_df.sort_index()

해당 코드는 대소문자를 구분하기 때문에 안하는 코드로 재설정.

titanic_df = titanic_df.sort_index(key= lambda x: x.str.lower())
titanic_df


0개의 댓글