Data wrangling

Nayeon Bae·2023년 6월 26일

Data

목록 보기
3/4

1) Data wrangling

  • 데이터 Merging, 그루핑, concatenating 등을 통해서 다른 데이터셋과 함께 분석할 수 있게 하는 것(+data aggregation, 데이터 시각화, 예측 통계모델 학습)

2) Data cleaning

  • 중복되거나 레이블이 잘못 달려 있는 데이터, 결측치, 아웃라이어, 비표준값(non-standard values), 데이터 품질을 이용하면 결과적으로 아웃컴과 알고리즘의 신뢰성 하락(Data impurities)

  • 데이터 클리닝이란? 이러한 데이터나 데이터베이스를 감지, 교정, 정확하게 포맷팅하는 등의 프로세스

  • 데이터 분석의 70%가 데이터 클리닝과 데이터 변환에 할애됨

3) 데이터 문제

  1. 데이터 품질의 문제 :데이터에서 content issue가 발생하는 경우 : 중복, 결측치, 부정확한 데이터 등
  • 문제 확인 방법

    1) 시각적 탐색 - text editor, google sheet 와 같이 프로그램을 활용해, 데이터셋을 관찰

    2) 프로그래매틱 탐색 - info() 등과 같은 코드를 사용하여, 전체적인 데이터를 확인

    *판다스로 탐색 시 : pd.set_option('display.max_columns', None)
    pd.set_option('display.max_rows', None) - 모든 열/행을 보여줘라

  1. 데이터 구조의 문제
  • 아래의 3가지 요소를 갖추지 않을 경우 발생

    1) 각 변수는 하나의 열을 구성

    2) 각 관측치는 하나의 행을 구성

    3) 각 유형의 관측 단위가 표를 구성

  • 데이터의 구조적 문제가 해결되지 않으면 차후에 분석, 시각화, 모델링을 진행할 때 속도가 느려질 수 있으니 주의해야 함

  1. 데이터 식별번호의 데이터 타입은 항상 object(categorical data) : 데이터 식별번호는 수치적 연산을 목적으로 하지 않기 때문!!
  1. 데이터의 기본키(primary key) : 테이블의 각 레코드를 구분할 수 있는 값, 각 레코드는 고유의 기본키를 가짐, 결측치가 없어야 함
  1. 데이터프레임은 시리즈의 모음이므로 데이터프레임의 컬럼은 시리즈로 반환됨. 시리즈는 인덱스를 가지고 있음
profile
데이터에 윤리를 내장하는 데이터 사이언티스트를 꿈꾸다

0개의 댓글