데이터 수집 및 품질 관리

Yuno·2025년 3월 18일

데이터 사이언스

목록 보기
4/25

1️⃣ 데이터 수집 과정 및 결측치 처리

✨ 데이터 수집 시 고려해야 할 문제

  • 결측치(누락된 데이터) 발생 가능성
  • 데이터 수집의 불안정성 (일부 데이터 누락, 지연, 중단 등)
  • 다양한 데이터 원을 통합할 때 발생하는 문제 (불일치, 중복, 오류 등)

✨ 결측치 처리 기법

  1. 해당 투플(Tuple) 제거
    • 결측값이 포함된 데이터를 삭제하는 방법
    • 너무 많은 데이터가 제외되면 분석 결과에 왜곡 발생 가능
  2. 수동 입력
    • 사람이 직접 결측값을 채움
    • 시간이 많이 걸리고 근거가 약함, 잘 사용하지 않음
  3. 전역 상수 대체
    • 비어있는 값을 0, 평균값, "미확인" 등 특정 값으로 채움
    • 결과를 왜곡할 가능성이 있어 주의 필요
  4. 속성의 평균값 대체
    • 같은 속성 내에서 평균값을 이용해 결측값 보완
    • 결과 왜곡 가능성이 존재하므로 신중한 적용 필요
  5. 동일 분류 내 평균값 사용
    • 비슷한 그룹 내에서 결측값을 평균값으로 채움
    • 금융 데이터에서 유사 기업의 평균 데이터 적용 예시
  6. 통계적 기법 적용
    • 회귀 분석, 베이지안 네트워크 등을 이용해 결측값 추정
    • 복잡도가 높지만 정확도가 개선됨

✨ 결측치 처리 실습 예제

import pandas as pd
import numpy as np

# 데이터 로드
df = pd.read_csv("data.csv")

# 1. 결측값이 포함된 행 제거
df_cleaned = df.dropna()

# 2. 결측값을 0으로 대체
df_filled_zero = df.fillna(0)

# 3. 결측값을 평균값으로 대체
df_filled_mean = df.fillna(df.mean())

# 4. 통계적 모델을 이용한 결측값 처리 (예: 회귀 분석)
from sklearn.linear_model import LinearRegression

model = LinearRegression()
known_values = df.dropna()
model.fit(known_values[["feature1", "feature2"]], known_values["target"])
df["target"].fillna(model.predict(df[["feature1", "feature2"]]), inplace = True)

2️⃣ 데이터 품질 관리 및 SSDP 활용

✨ 데이터 전처리(Preprocessing) 의 중요성

  • 데이터 프로젝트의 70 ~ 90% 는 데이터 전처리에 소요됨
  • 데이터를 정리하고 보완하는 과정에서 데이터 품질이 결정됨
  • SSDP(Self Service Data Preparation Solution) 사용하면 자동화 가능

✨ SSDP의 주요 기능

기능설명
데이터 탐색(Exploration)데이터의 구조와 특성을 파악
변환(Transformation)데이터를 분석에 적합한 형태로 변환
정제(Cleansing)이상치 및 결측값을 처리
중복 제거(Deduplication)불필요한 중복 데이터 제거
프로파일링(Profiling)데이터의 통계적 특성 분석

✨ SSDP와 전통적 데이터 분석 비교

구분전통적인 방식SSDP 방식
컴퓨팅 방식코드 기반UI 기반
데이터 통합수작업으로 병합자동화된 데이터 매쉬업
모델링 & 분석별도 개발 필요즉시 적용 가능
소요 시간3개월 이상80% 이상 단축

3️⃣ 공공 데이터 품질 관리

✨ 공공 데이터 품질 문제의 원인

  1. 운영 및 구축 단계에서 품질 관리 부족
  2. 오류 데이터 유입 및 정합성 문제
  3. 데이터 표준화 부족으로 인한 활용성 저하

✨ 데이터 품질 개선 방안

  • 정보와 생명주기 전반에 걸쳐 품질 관리 수행
  • 데이터를 획득, 저장, 운영, 활용, 폐기하는 과정에서 지속적인 모니터링 필요
  • 데이터 품질 기준 설정 (완전성, 정확성, 일관성, 최신성 등)

✨ 공공 데이터 품질 관리 단계

단계설명
계획품질 목표 및 기준 설정
구축표준화, 데이터 구조 점검, 연계 관리
운영품질 진단, 오류 수정, 데이터 정제
활용품질 평가, 개방 데이터 최신화 및 점검

✨ 공공 데이터 품질 기준

품질 요소설명
완전성데이터가 누락되지 않았는가?
정확성오류 없는 신뢰할 수 있는 데이터인가?
유효성의미 있는 데이터인가?
일관성데이터 간 충돌 없이 정합성이 유지되는가?
적시성최신 데이터가 적절한 시점에 반영되었는가?

4️⃣ 공공 데이터 포털과 정보 생명주기 관리

✨ 공공 데이터 포털의 역할

  • 정부 및 기관이 보유한 데이터를 통합적으로 관리
  • 데이터의 최신성, 정확성, 상호운용성을 보장
  • 공공 데이터를 분석 및 활용 가능하도록 개방

✨ 정보 생명주기 (Information Life Cycle)

단계설명
계획 (Planning)품질 기준 및 정책 수립
구축 (Building)데이터 표준화 및 구조 정리
운영 (Operating)데이터 정제 및 오류 수정
활용 (Utilizing)데이터 개방, 품질 평가

🚀 결론

  • 데이터 수집 시 결측치 처리 기법을 활용하여 품질을 보완해야 함
  • 전처리 과정(Preprocessing)은 데이터 분석의 핵심 요소이며 SSDP 활용으로 자동화 가능
  • 공공 데이터 품질 관리는 정보 생명주기를 고려하여 지속적인 관리가 필요
  • 데이터 품질이 낮으면 분석 결과가 무의미해지므로, 초기 품질 확보가 가장 중요

정확하고 일관된 데이터 = 성공적인 분석과 활용으로 이어짐

profile
Hello World

0개의 댓글