22.11.02 - 데이터분석(타이타닉 데이터셋 타이타닉 데이터 실습)(4)

LaMelo·2022년 11월 2일
0

jupyter

목록 보기
29/29

타이타닉 데이터셋 개요 및 적재

< 데이터셋 개요>

  • Survived: 생존 여부
    • 0 = No
    • 1 = Yes
  • pclass: 티켓 등급
    • 1 = 1st
    • 2 = 2nd
    • 3 = 3rd
  • Sex: 성별
  • Age: 나이
  • Sibsp: 함께 탑승한 형제자매, 배우자의 수
  • Parch: 함께 탑승한 부모, 자식의 수
  • Ticket: 티켓 번호
  • Name : 이름, 사회적등급
  • Fare: 운임
  • Cabin: 객실 번호
  • Embarked: 탑승 항구
    • C = Cherbourg
    • Q = Queenstown
    • S = Southampton

데이터 적재

  • 작업의 용이성을 위해 컬럼 소문자로 만들기
    • 방법은 여러가지
      • 첫번째 방법 : rename : data.rename(columns = str.lower)
      • 두번째 방법 : map 활용
      • 세번째 방법 : data.columns = data.columns.str.lower()

결측치 확인

  • 컬럼별 갯수
  • 데이터셋의 크기가 작은 경우 결측치가 있는 레코드를 삭제하지 않습니다.
    • 대체하는 방식으로 전처리가 가능하다.(케이스에 따라 다른 방법 사용)
  • data.isnull()
    • isnull()함수는 값이 있으면 False, 없으면 True 출력.
    • 그런데 파이썬 특성상 True는 1로 False는 0으로 간주하므로
      isnull()에 대해 총합을 구하면, 결측치 개수를 구할 수 있습니다.
      • 결측치의 존재 (age, cabin)
      • 전체 데이터 대비 결측치의 비율 계산
        • 결측치 / 891(전체 데이터 개수) * 100 = 비율

불필요한 변수 제거

  • ticket : 티켓 번호는 유의미한 결과를 도출하기 힘든 컬럼으로 보이므로 제거.
    • 두가지 방법
      • drop함수 : data.drop('ticket', axis = 1, inplace=True)
      • del 함수 : del data['ticket']
profile
가즈아~

0개의 댓글