22.11.02 - 데이터분석(타이타닉 데이터셋 타이타닉 데이터 실습)(4)

LaMelo·2022년 11월 2일

0

jupyter

목록 보기

29/29

타이타닉 데이터셋 개요 및 적재

< 데이터셋 개요>

Survived: 생존 여부
- 0 = No
- 1 = Yes
pclass: 티켓 등급
- 1 = 1st
- 2 = 2nd
- 3 = 3rd
Sex: 성별
Age: 나이
Sibsp: 함께 탑승한 형제자매, 배우자의 수
Parch: 함께 탑승한 부모, 자식의 수
Ticket: 티켓 번호
Name : 이름, 사회적등급
Fare: 운임
Cabin: 객실 번호
Embarked: 탑승 항구
- C = Cherbourg
- Q = Queenstown
- S = Southampton

데이터 적재

작업의 용이성을 위해 컬럼 소문자로 만들기
- 방법은 여러가지
  - 첫번째 방법 : rename : data.rename(columns = str.lower)
  - 두번째 방법 : map 활용
  - 세번째 방법 : data.columns = data.columns.str.lower()

결측치 확인

컬럼별 갯수
데이터셋의 크기가 작은 경우 결측치가 있는 레코드를 삭제하지 않습니다.
- 대체하는 방식으로 전처리가 가능하다.(케이스에 따라 다른 방법 사용)
data.isnull()
- isnull()함수는 값이 있으면 False, 없으면 True 출력.
- 그런데 파이썬 특성상 True는 1로 False는 0으로 간주하므로
  isnull()에 대해 총합을 구하면, 결측치 개수를 구할 수 있습니다.
  - 결측치의 존재 (age, cabin)
  - 전체 데이터 대비 결측치의 비율 계산
    - 결측치 / 891(전체 데이터 개수) * 100 = 비율

불필요한 변수 제거

ticket : 티켓 번호는 유의미한 결과를 도출하기 힘든 컬럼으로 보이므로 제거.
- 두가지 방법
  - drop함수 : data.drop('ticket', axis = 1, inplace=True)
  - del 함수 : del data['ticket']

가즈아~

이전 포스트

22.11.02 - 데이터분석(타이타닉 데이터셋 전처리하기)(3)

0개의 댓글