1️⃣ 데이터 수집 과정 및 결측치 처리
✨ 데이터 수집 시 고려해야 할 문제
- 결측치(누락된 데이터) 발생 가능성
- 데이터 수집의 불안정성 (일부 데이터 누락, 지연, 중단 등)
- 다양한 데이터 원을 통합할 때 발생하는 문제 (불일치, 중복, 오류 등)
✨ 결측치 처리 기법
- 해당 투플(Tuple) 제거
- 결측값이 포함된 데이터를 삭제하는 방법
- 너무 많은 데이터가 제외되면 분석 결과에 왜곡 발생 가능
- 수동 입력
- 사람이 직접 결측값을 채움
- 시간이 많이 걸리고 근거가 약함, 잘 사용하지 않음
- 전역 상수 대체
- 비어있는 값을 0, 평균값, "미확인" 등 특정 값으로 채움
- 결과를 왜곡할 가능성이 있어 주의 필요
- 속성의 평균값 대체
- 같은 속성 내에서 평균값을 이용해 결측값 보완
- 결과 왜곡 가능성이 존재하므로 신중한 적용 필요
- 동일 분류 내 평균값 사용
- 비슷한 그룹 내에서 결측값을 평균값으로 채움
- 금융 데이터에서 유사 기업의 평균 데이터 적용 예시
- 통계적 기법 적용
- 회귀 분석, 베이지안 네트워크 등을 이용해 결측값 추정
- 복잡도가 높지만 정확도가 개선됨
✨ 결측치 처리 실습 예제
import pandas as pd
import numpy as np
df = pd.read_csv("data.csv")
df_cleaned = df.dropna()
df_filled_zero = df.fillna(0)
df_filled_mean = df.fillna(df.mean())
from sklearn.linear_model import LinearRegression
model = LinearRegression()
known_values = df.dropna()
model.fit(known_values[["feature1", "feature2"]], known_values["target"])
df["target"].fillna(model.predict(df[["feature1", "feature2"]]), inplace = True)
2️⃣ 데이터 품질 관리 및 SSDP 활용
✨ 데이터 전처리(Preprocessing) 의 중요성
- 데이터 프로젝트의 70 ~ 90% 는 데이터 전처리에 소요됨
- 데이터를 정리하고 보완하는 과정에서 데이터 품질이 결정됨
- SSDP(Self Service Data Preparation Solution) 사용하면 자동화 가능
✨ SSDP의 주요 기능
| 기능 | 설명 |
|---|
| 데이터 탐색(Exploration) | 데이터의 구조와 특성을 파악 |
| 변환(Transformation) | 데이터를 분석에 적합한 형태로 변환 |
| 정제(Cleansing) | 이상치 및 결측값을 처리 |
| 중복 제거(Deduplication) | 불필요한 중복 데이터 제거 |
| 프로파일링(Profiling) | 데이터의 통계적 특성 분석 |
✨ SSDP와 전통적 데이터 분석 비교
| 구분 | 전통적인 방식 | SSDP 방식 |
|---|
| 컴퓨팅 방식 | 코드 기반 | UI 기반 |
| 데이터 통합 | 수작업으로 병합 | 자동화된 데이터 매쉬업 |
| 모델링 & 분석 | 별도 개발 필요 | 즉시 적용 가능 |
| 소요 시간 | 3개월 이상 | 80% 이상 단축 |
3️⃣ 공공 데이터 품질 관리
✨ 공공 데이터 품질 문제의 원인
- 운영 및 구축 단계에서 품질 관리 부족
- 오류 데이터 유입 및 정합성 문제
- 데이터 표준화 부족으로 인한 활용성 저하
✨ 데이터 품질 개선 방안
- 정보와 생명주기 전반에 걸쳐 품질 관리 수행
- 데이터를 획득, 저장, 운영, 활용, 폐기하는 과정에서 지속적인 모니터링 필요
- 데이터 품질 기준 설정 (완전성, 정확성, 일관성, 최신성 등)
✨ 공공 데이터 품질 관리 단계
| 단계 | 설명 |
|---|
| 계획 | 품질 목표 및 기준 설정 |
| 구축 | 표준화, 데이터 구조 점검, 연계 관리 |
| 운영 | 품질 진단, 오류 수정, 데이터 정제 |
| 활용 | 품질 평가, 개방 데이터 최신화 및 점검 |
✨ 공공 데이터 품질 기준
| 품질 요소 | 설명 |
|---|
| 완전성 | 데이터가 누락되지 않았는가? |
| 정확성 | 오류 없는 신뢰할 수 있는 데이터인가? |
| 유효성 | 의미 있는 데이터인가? |
| 일관성 | 데이터 간 충돌 없이 정합성이 유지되는가? |
| 적시성 | 최신 데이터가 적절한 시점에 반영되었는가? |
4️⃣ 공공 데이터 포털과 정보 생명주기 관리
✨ 공공 데이터 포털의 역할
- 정부 및 기관이 보유한 데이터를 통합적으로 관리
- 데이터의 최신성, 정확성, 상호운용성을 보장
- 공공 데이터를 분석 및 활용 가능하도록 개방
| 단계 | 설명 |
|---|
| 계획 (Planning) | 품질 기준 및 정책 수립 |
| 구축 (Building) | 데이터 표준화 및 구조 정리 |
| 운영 (Operating) | 데이터 정제 및 오류 수정 |
| 활용 (Utilizing) | 데이터 개방, 품질 평가 |
🚀 결론
- 데이터 수집 시 결측치 처리 기법을 활용하여 품질을 보완해야 함
- 전처리 과정(Preprocessing)은 데이터 분석의 핵심 요소이며 SSDP 활용으로 자동화 가능
- 공공 데이터 품질 관리는 정보 생명주기를 고려하여 지속적인 관리가 필요
- 데이터 품질이 낮으면 분석 결과가 무의미해지므로, 초기 품질 확보가 가장 중요
✅ 정확하고 일관된 데이터 = 성공적인 분석과 활용으로 이어짐