1️⃣ 데이터 전처리란?
데이터 분석이나 머신러닝을 수행하기 전에, 원본 데이터를 분석에 적합한 형태로 가공하는 과정
- 전체 데이터 분석 프로젝트에서 전처리 작업이 약 70% 를 차지할 만큼 중요
- 데이터를 얼마나 잘 전처리하느냐가 분석의 정확도와 신뢰도를 결정
2️⃣ 전처리 주요 과정
| 단계 | 내용 | 목적 |
|---|
| 데이터 여과 (Filtering) | 불필요한 데이터 제거(중복, 오류 데이터 등) | 효율적이고 정확한 데이터 분석 |
| 데이터 변화 (Transformation) | 데이터를 분석하기 좋은 형태로 변경(정규화, 집계 등) | 분석 용이성 향상 |
| 데이터 정제 (Cleaning) | 결측값(Missing Value) 처리 및 이상치 제거 | 데이터 품질 향상 |
| 데이터 통합 (Integration) | 여러 출처의 데이터를 결합, 일관성 확보 | 데이터의 연계성 확보 |
| 데이터 축소 (Reduction) | 분석에 필요 없는 데이터를 축소(제거) | 계산 효율성 증가 |
✨ 데이터 여과 (Filtering)
- 분석에 불필요한 데이터를 걸러내는 작업
- 중복 데이터, 오류 데이터를 제거하는 작업
- 예시 : 10명의 정보 중 동일한 사람이 중복 기록된 경우 중복 기록 제거
- 데이터 분석을 용이하게 하기 위한 데이터 형태의 변환
📌 데이터 변환 방법
| 방법 | 의미 |
|---|
| 정규화 (Normalization) | 데이터의 크기를 특정 범위로 맞추기 |
| 평활화 (Smoothing) | 데이터의 잡음(noise) 을 제거 |
| 집계 (Aggregation) | 데이터를 요약하여 표현 |
| 일반화 (Generalization) | 특정 데이터 범위로 묶기 |
💡 정규화(Rescaling)의 필요성
- 데이터의 값이 서로 크게 다르면, 큰 값이 더 큰 영향을 미치게 됨
- 이를 방지하기 위해 전체 데이터를 0~1 사이로 맞추는 정규화를 수행
- 데이터 값을 최소 0, 최대 1로 맞추는 방식
✨ 데이터 정제 (Cleaning)
- 데이터 내의 문제를 해결하여 분석 가능한 형태로 만드는 과정
✅ 결측치(Missing Value) 처리 방법
- 제거 : 결측치가 포함된 데이터를 삭제
- 자동 채우기 : 평균값, 중간값, 최빈값 등으로 채움
- 수작업 보완 : 직접 값을 넣음
예시
👉 김철수 나이 결측치 → 평균값으로 대체하거나, 데이터 삭제하거나 수작업으로 넣어줌
✨ 데이터 통합 (Integration)
- 서로 다른 출처의 데이터를 합치는 과정
- 예시 : 고객 정보 테이블과 구매 정보 테이블을 고객 ID 를 기준으로 결합하는 경우
📍 유의점
- 데이터 중복(Redundancy) 을 제거
- 데이터 표현 방식과 스키마(데이터 구조)를 통일해야 함
✨ 데이터 축소 (Reduction)
- 분석에 필요한 데이터만 남기고 불필요한 데이터를 제거
- 데이터 크기를 줄여 컴퓨터 자원을 효율적으로 사용하도록 함
💡 축소 방법
- 차원 축소(Dimension Reduction)
분석에 필요 없는 변수를 제거하거나 합치는 작업
- 데이터 압축(Compression)
데이터 자체를 압축하거나 축약하여 크기를 줄임
- 주성분 분석(PCA: Principal Component Analysis)
중요한 특징만 추출하여 데이터를 줄이는 방법
3️⃣ 차원 축소와 주성분 분석(PCA)
✨ 차원 축소 (Dimension Reduction) 장점
- 데이터 잡음(노이즈) 을 줄여줌
- 분석의 효율성과 속도를 향상
- 결과를 더 쉽게 이해할 수 있음
💡 차원 축소 방법 예시
| 방법 | 설명 |
|---|
| Feature Selection (속성 선택) | 분석에 중요한 속성만 선택 |
| Feature Derivation (속성 도출) | 기존 속성을 활용하여 새로운 속성 생성 |
| 군집화 (Clustering) | 비슷한 데이터를 그룹화 |
✨ 주성분 분석(PCA)
- PCA는 데이터의 여러 변수를 더 적은 수의 주성분(Principal Component) 으로 요약
- 데이터 내 최대한 많은 정보를 유지하면서 차원을 축소
✅ PCA의 장점
- 데이터 내 다중공선성 문제 해결
- 데이터 시각화 및 분석 용이성 증가
- 분석 속도 향상 및 효율성 증대
- 예시 : 여러 변수를 가진 데이터를 PCA로 축약하면, 2개의 변수만으로 데이터를 명확히 표현할 수 있게 됨
🚀 정리
| 전처리 단계 | 작업 내용 | 효과 |
|---|
| 데이터 여과 | 중복, 오류 제거 | 분석 정확성 증가 |
| 데이터 변화 | 정규화, 집계 | 분석 용이성 증가 |
| 데이터 정제 | 결측치 처리, 이상치 제거 | 데이터 품질 증가 |
| 데이터 통합 | 여러 데이터 병합 | 분석의 효율성 증가 |
| 데이터 축소 | 불필요한 데이터 제거 및 축약 | 분석 속도 향상 |
- 데이터 전처리 과정은 분석 프로젝트 전체의 70% 이상을 차지할 만큼 중요
- 양질의 데이터를 확보하는 것이 좋은 분석 결과의 핵심
- 특히 정규화와 차원 축소(PCA) 는 데이터 분석에서 가장 많이 쓰는 기법