ball.log
로그인
ball.log
로그인
22.11.02 - 데이터분석(타이타닉 데이터셋 타이타닉 데이터 실습)(4)
LaMelo
·
2022년 11월 2일
팔로우
0
전처리
0
jupyter
목록 보기
29/29
타이타닉 데이터셋 개요 및 적재
< 데이터셋 개요>
Survived: 생존 여부
0 = No
1 = Yes
pclass: 티켓 등급
1 = 1st
2 = 2nd
3 = 3rd
Sex: 성별
Age: 나이
Sibsp: 함께 탑승한 형제자매, 배우자의 수
Parch: 함께 탑승한 부모, 자식의 수
Ticket: 티켓 번호
Name : 이름, 사회적등급
Fare: 운임
Cabin: 객실 번호
Embarked: 탑승 항구
C = Cherbourg
Q = Queenstown
S = Southampton
데이터 적재
작업의 용이성을 위해 컬럼 소문자로 만들기
방법은 여러가지
첫번째 방법 : rename : data.rename(columns = str.lower)
두번째 방법 : map 활용
세번째 방법 : data.columns = data.columns.str.lower()
결측치 확인
컬럼별 갯수
데이터셋의 크기가 작은 경우 결측치가 있는 레코드를 삭제하지 않습니다.
대체하는 방식으로 전처리가 가능하다.(케이스에 따라 다른 방법 사용)
data.isnull()
isnull()함수는 값이 있으면 False, 없으면 True 출력.
그런데 파이썬 특성상 True는 1로 False는 0으로 간주하므로
isnull()에 대해 총합을 구하면, 결측치 개수를 구할 수 있습니다.
결측치의 존재 (age, cabin)
전체 데이터 대비 결측치의 비율 계산
결측치 / 891(전체 데이터 개수) * 100 = 비율
불필요한 변수 제거
ticket : 티켓 번호는 유의미한 결과를 도출하기 힘든 컬럼으로 보이므로 제거.
두가지 방법
drop함수 : data.drop('ticket', axis = 1, inplace=True)
del 함수 : del data['ticket']
LaMelo
가즈아~
팔로우
이전 포스트
22.11.02 - 데이터분석(타이타닉 데이터셋 전처리하기)(3)
0개의 댓글
댓글 작성