데이터 전처리

Yuno·2025년 4월 5일

데이터 사이언스

목록 보기
13/25

1️⃣ 데이터 전처리란?

데이터 분석이나 머신러닝을 수행하기 전에, 원본 데이터를 분석에 적합한 형태로 가공하는 과정

  • 전체 데이터 분석 프로젝트에서 전처리 작업이 약 70% 를 차지할 만큼 중요
  • 데이터를 얼마나 잘 전처리하느냐가 분석의 정확도와 신뢰도를 결정

2️⃣ 전처리 주요 과정

단계내용목적
데이터 여과 (Filtering)불필요한 데이터 제거(중복, 오류 데이터 등)효율적이고 정확한 데이터 분석
데이터 변화 (Transformation)데이터를 분석하기 좋은 형태로 변경(정규화, 집계 등)분석 용이성 향상
데이터 정제 (Cleaning)결측값(Missing Value) 처리 및 이상치 제거데이터 품질 향상
데이터 통합 (Integration)여러 출처의 데이터를 결합, 일관성 확보데이터의 연계성 확보
데이터 축소 (Reduction)분석에 필요 없는 데이터를 축소(제거)계산 효율성 증가

✨ 데이터 여과 (Filtering)

  • 분석에 불필요한 데이터를 걸러내는 작업
  • 중복 데이터, 오류 데이터를 제거하는 작업
  • 예시 : 10명의 정보 중 동일한 사람이 중복 기록된 경우 중복 기록 제거

✨ 데이터 변화 (Transformation)

  • 데이터 분석을 용이하게 하기 위한 데이터 형태의 변환

📌 데이터 변환 방법

방법의미
정규화 (Normalization)데이터의 크기를 특정 범위로 맞추기
평활화 (Smoothing)데이터의 잡음(noise) 을 제거
집계 (Aggregation)데이터를 요약하여 표현
일반화 (Generalization)특정 데이터 범위로 묶기

💡 정규화(Rescaling)의 필요성

  • 데이터의 값이 서로 크게 다르면, 큰 값이 더 큰 영향을 미치게 됨
  • 이를 방지하기 위해 전체 데이터를 0~1 사이로 맞추는 정규화를 수행
  • 데이터 값을 최소 0, 최대 1로 맞추는 방식

✨ 데이터 정제 (Cleaning)

  • 데이터 내의 문제를 해결하여 분석 가능한 형태로 만드는 과정

✅ 결측치(Missing Value) 처리 방법

  • 제거 : 결측치가 포함된 데이터를 삭제
  • 자동 채우기 : 평균값, 중간값, 최빈값 등으로 채움
  • 수작업 보완 : 직접 값을 넣음

예시

이름나이주소
홍길동20서울
김철수NaN부산

👉 김철수 나이 결측치 → 평균값으로 대체하거나, 데이터 삭제하거나 수작업으로 넣어줌

✨ 데이터 통합 (Integration)

  • 서로 다른 출처의 데이터를 합치는 과정
  • 예시 : 고객 정보 테이블과 구매 정보 테이블을 고객 ID 를 기준으로 결합하는 경우

📍 유의점

  • 데이터 중복(Redundancy) 을 제거
  • 데이터 표현 방식과 스키마(데이터 구조)를 통일해야 함

✨ 데이터 축소 (Reduction)

  • 분석에 필요한 데이터만 남기고 불필요한 데이터를 제거
  • 데이터 크기를 줄여 컴퓨터 자원을 효율적으로 사용하도록 함

💡 축소 방법

  • 차원 축소(Dimension Reduction)
    분석에 필요 없는 변수를 제거하거나 합치는 작업
  • 데이터 압축(Compression)
    데이터 자체를 압축하거나 축약하여 크기를 줄임
  • 주성분 분석(PCA: Principal Component Analysis)
    중요한 특징만 추출하여 데이터를 줄이는 방법

3️⃣ 차원 축소와 주성분 분석(PCA)

✨ 차원 축소 (Dimension Reduction) 장점

  • 데이터 잡음(노이즈) 을 줄여줌
  • 분석의 효율성과 속도를 향상
  • 결과를 더 쉽게 이해할 수 있음

💡 차원 축소 방법 예시

방법설명
Feature Selection (속성 선택)분석에 중요한 속성만 선택
Feature Derivation (속성 도출)기존 속성을 활용하여 새로운 속성 생성
군집화 (Clustering)비슷한 데이터를 그룹화

✨ 주성분 분석(PCA)

  • PCA는 데이터의 여러 변수를 더 적은 수의 주성분(Principal Component) 으로 요약
  • 데이터 내 최대한 많은 정보를 유지하면서 차원을 축소

✅ PCA의 장점

  • 데이터 내 다중공선성 문제 해결
  • 데이터 시각화 및 분석 용이성 증가
  • 분석 속도 향상 및 효율성 증대
  • 예시 : 여러 변수를 가진 데이터를 PCA로 축약하면, 2개의 변수만으로 데이터를 명확히 표현할 수 있게 됨

🚀 정리

전처리 단계작업 내용효과
데이터 여과중복, 오류 제거분석 정확성 증가
데이터 변화정규화, 집계분석 용이성 증가
데이터 정제결측치 처리, 이상치 제거데이터 품질 증가
데이터 통합여러 데이터 병합분석의 효율성 증가
데이터 축소불필요한 데이터 제거 및 축약분석 속도 향상
  • 데이터 전처리 과정은 분석 프로젝트 전체의 70% 이상을 차지할 만큼 중요
  • 양질의 데이터를 확보하는 것이 좋은 분석 결과의 핵심
  • 특히 정규화와 차원 축소(PCA) 는 데이터 분석에서 가장 많이 쓰는 기법
profile
Hello World

0개의 댓글