데이터 수집 및 품질 관리

Yuno·2025년 3월 18일

데이터 사이언스

목록 보기

4/25

1️⃣ 데이터 수집 과정 및 결측치 처리

✨ 데이터 수집 시 고려해야 할 문제

결측치(누락된 데이터) 발생 가능성
데이터 수집의 불안정성 (일부 데이터 누락, 지연, 중단 등)
다양한 데이터 원을 통합할 때 발생하는 문제 (불일치, 중복, 오류 등)

✨ 결측치 처리 기법

해당 투플(Tuple) 제거
- 결측값이 포함된 데이터를 삭제하는 방법
- 너무 많은 데이터가 제외되면 분석 결과에 왜곡 발생 가능
수동 입력
- 사람이 직접 결측값을 채움
- 시간이 많이 걸리고 근거가 약함, 잘 사용하지 않음
전역 상수 대체
- 비어있는 값을 0, 평균값, "미확인" 등 특정 값으로 채움
- 결과를 왜곡할 가능성이 있어 주의 필요
속성의 평균값 대체
- 같은 속성 내에서 평균값을 이용해 결측값 보완
- 결과 왜곡 가능성이 존재하므로 신중한 적용 필요
동일 분류 내 평균값 사용
- 비슷한 그룹 내에서 결측값을 평균값으로 채움
- 금융 데이터에서 유사 기업의 평균 데이터 적용 예시
통계적 기법 적용
- 회귀 분석, 베이지안 네트워크 등을 이용해 결측값 추정
- 복잡도가 높지만 정확도가 개선됨

✨ 결측치 처리 실습 예제

import pandas as pd
import numpy as np

# 데이터 로드
df = pd.read_csv("data.csv")

# 1. 결측값이 포함된 행 제거
df_cleaned = df.dropna()

# 2. 결측값을 0으로 대체
df_filled_zero = df.fillna(0)

# 3. 결측값을 평균값으로 대체
df_filled_mean = df.fillna(df.mean())

# 4. 통계적 모델을 이용한 결측값 처리 (예: 회귀 분석)
from sklearn.linear_model import LinearRegression

model = LinearRegression()
known_values = df.dropna()
model.fit(known_values[["feature1", "feature2"]], known_values["target"])
df["target"].fillna(model.predict(df[["feature1", "feature2"]]), inplace = True)

2️⃣ 데이터 품질 관리 및 SSDP 활용

✨ 데이터 전처리(Preprocessing) 의 중요성

데이터 프로젝트의 70 ~ 90% 는 데이터 전처리에 소요됨
데이터를 정리하고 보완하는 과정에서 데이터 품질이 결정됨
SSDP(Self Service Data Preparation Solution) 사용하면 자동화 가능

✨ SSDP의 주요 기능

기능	설명
데이터 탐색(Exploration)	데이터의 구조와 특성을 파악
변환(Transformation)	데이터를 분석에 적합한 형태로 변환
정제(Cleansing)	이상치 및 결측값을 처리
중복 제거(Deduplication)	불필요한 중복 데이터 제거
프로파일링(Profiling)	데이터의 통계적 특성 분석

✨ SSDP와 전통적 데이터 분석 비교

구분	전통적인 방식	SSDP 방식
컴퓨팅 방식	코드 기반	UI 기반
데이터 통합	수작업으로 병합	자동화된 데이터 매쉬업
모델링 & 분석	별도 개발 필요	즉시 적용 가능
소요 시간	3개월 이상	80% 이상 단축

3️⃣ 공공 데이터 품질 관리

✨ 공공 데이터 품질 문제의 원인

운영 및 구축 단계에서 품질 관리 부족
오류 데이터 유입 및 정합성 문제
데이터 표준화 부족으로 인한 활용성 저하

✨ 데이터 품질 개선 방안

정보와 생명주기 전반에 걸쳐 품질 관리 수행
데이터를 획득, 저장, 운영, 활용, 폐기하는 과정에서 지속적인 모니터링 필요
데이터 품질 기준 설정 (완전성, 정확성, 일관성, 최신성 등)

✨ 공공 데이터 품질 관리 단계

단계	설명
계획	품질 목표 및 기준 설정
구축	표준화, 데이터 구조 점검, 연계 관리
운영	품질 진단, 오류 수정, 데이터 정제
활용	품질 평가, 개방 데이터 최신화 및 점검

✨ 공공 데이터 품질 기준

품질 요소	설명
완전성	데이터가 누락되지 않았는가?
정확성	오류 없는 신뢰할 수 있는 데이터인가?
유효성	의미 있는 데이터인가?
일관성	데이터 간 충돌 없이 정합성이 유지되는가?
적시성	최신 데이터가 적절한 시점에 반영되었는가?

4️⃣ 공공 데이터 포털과 정보 생명주기 관리

✨ 공공 데이터 포털의 역할

정부 및 기관이 보유한 데이터를 통합적으로 관리
데이터의 최신성, 정확성, 상호운용성을 보장
공공 데이터를 분석 및 활용 가능하도록 개방

✨ 정보 생명주기 (Information Life Cycle)

단계	설명
계획 (Planning)	품질 기준 및 정책 수립
구축 (Building)	데이터 표준화 및 구조 정리
운영 (Operating)	데이터 정제 및 오류 수정
활용 (Utilizing)	데이터 개방, 품질 평가

🚀 결론

데이터 수집 시 결측치 처리 기법을 활용하여 품질을 보완해야 함
전처리 과정(Preprocessing)은 데이터 분석의 핵심 요소이며 SSDP 활용으로 자동화 가능
공공 데이터 품질 관리는 정보 생명주기를 고려하여 지속적인 관리가 필요
데이터 품질이 낮으면 분석 결과가 무의미해지므로, 초기 품질 확보가 가장 중요

✅ 정확하고 일관된 데이터 = 성공적인 분석과 활용으로 이어짐

Yuno

Hello World

이전 포스트

데이터베이스 개론

다음 포스트

데이터 수집 및 품질 관리

데이터 사이언스

1️⃣ 데이터 수집 과정 및 결측치 처리

✨ 데이터 수집 시 고려해야 할 문제

✨ 결측치 처리 기법

✨ 결측치 처리 실습 예제

2️⃣ 데이터 품질 관리 및 SSDP 활용

✨ 데이터 전처리(Preprocessing) 의 중요성

✨ SSDP의 주요 기능

✨ SSDP와 전통적 데이터 분석 비교

3️⃣ 공공 데이터 품질 관리

✨ 공공 데이터 품질 문제의 원인

✨ 데이터 품질 개선 방안

✨ 공공 데이터 품질 관리 단계

✨ 공공 데이터 품질 기준

4️⃣ 공공 데이터 포털과 정보 생명주기 관리

✨ 공공 데이터 포털의 역할

✨ 정보 생명주기 (Information Life Cycle)

🚀 결론

데이터베이스 개론

데이터 탐색과 수집 기법

0개의 댓글