데이터 전처리

Think_Positively·2021년 4월 22일
0

전처리 과정에서 해야하는 일들

  • 데이터의 실수화: 문자열, 범주화 데이터들을 컴퓨터가 이해가능한 실수형 데이터로 변환
  • 불완전 데이터 제거: NaN, null, N/A 값 등 제거
  • 데이터 노이즈 제거:
    • 이상치 제거: 일반적인 데이터와 다른 값들 제거. ex)나이가 200, 1200등으로 시작
    • 가격 데이터에 NaN, "없음", 빈칸 등 적절하지 않는 데이터 제거 및 채우기
  • 모순 데이터 제거 및 변환: 남성 주민번호가 2로 시작
  • 데이터 불균형 해소
    • 왜도(Skewness), 첨도(Kurtosis)

주요 전처리 기법

  • Data Vectorization: 데이터를 실수화 하는 기법
  • Data Cleaning: 결측치, 이상치, 모순 데이터 등을 제거하는 작업
    • dropna the missing value
    • replace missing value
  • Data Integration: 여러 개의 데이터 파일을 하나로 합치는 과정
  • Data Reduction: 데이터가 과도하게 큰 경우 이를 줄이거나, 데이터의 차원을 축소하는 작업
  • Data Transformation: 데이터에 로그를 씌우거나, 평균값을 구하거나 하는 방법으로 데이터를 변환하는 작업
    • Data Smoothing
    • Attribute Construction
    • Data Aggregating
    • Data Normalization
      • MinMaxNormalization
      • Mean Normalization
      • Standardization
  • Data Balancing: 특정 클래스의 데이터가 타 클래스의 데이터 수와 너무 차이가 날 때, 샘플링을 통해 이 비율을 맞추는 작업

Reference

  1. 데이터 전처리 (Data Pre-Processing) - https://skyil.tistory.com/100
    Data Transformation - https://binaryterms.com/data-transformation.html
profile
데이터 엔지니어를 꿈꾸며

0개의 댓글