1️⃣ 데이터베이스 (DB) 개념과 데이터의 형식
✨ 데이터베이스란?
- 데이터를 효율적으로 저장, 관리, 검색, 수정, 삭제할 수 있는 구조
- 서랍정리 개념 : 특정한 기준으로 데이터를 분류하여 보관
- 데이터베이스를 통해 일관성, 무결성, 독립성, 보안성을 보장할 수 있음
✨ 데이터의 형식
- 정형 데이터 : 테이블, 엑셀처럼 일정한 형식을 가진 데이터 (예: DB 테이블, CSV 파일)
- 반정형 데이터 : XML, JSON 과 같이 부분적으로 구조가 있는 데이터
- 비정형 데이터 : 문서, 영상, 이미지처럼 일정한 형식이 없는 데이터
2️⃣ 데이터 중심 프로젝트 vs 일반 IT 프로젝트
| 구분 | 일반 IT 프로젝트 | 데이터 프로젝트 |
|---|
| 목적 | 기능 개발 | 데이터 활용 |
| 중점 | 사용자 요구 사항 | 데이터 인사이트 |
| 핵심 요소 | UX/UI, 프로세스 | 데이터 수집, 분석 |
| 결과물 | 웹/앱, 시스템 | 데이터 기반 의사결정 |
- 데이터 프로젝트에서는 데이터 수집과 품질 관리가 중요함
- 정확하지 않은 데이터는 분석이 무의미하며, 지속적인 수집 가능성도 고려해야 함
3️⃣ 빅데이터 프로젝트의 핵심 고려사항
✨ 데이터 수집의 중요성
- 잘못된 데이터로부터 올바른 결론을 얻을 수 없음 → 초기 데이터 수집이 중요
- 지속적으로 데이터를 수집할 수 있는지 확인 필요
- 데이터 비용, 저작권, 정책 변경 가능성 고려
✨ 데이터 수집 프로세스
- 수집 안정성 확보 : 데이터가 안정적으로 지속적으로 제공되는지 검토
- 원천 데이터 탐색 : 사용할 수 있는 데이터인지 확인
- 데이터 관리 정책 : 데이터의 관리 주체 및 활용 가능성 평가
4️⃣ 데이터의 계층 구조
| 구분 | 설명 |
|---|
| 데이터 세트 | 여러 개의 데이터 객체를 포함하는 집합 |
| 데이터 객체 | 하나의 관찰 대상 (예: 고객, 제품, 트랜잭션) |
| 데이터 속성 | 데이터 객체가 가지는 특정 속성 (예: 이름, 가격, 날짜) |
- 데이터를 계층적으로 관리하면 분석 및 검색이 용이함
5️⃣ 데이터 프로젝트에서 고려해야 할 요소
✨ 데이터 품질 확보
- 양질의 데이터 확보 : 정확하고 신뢰할 수 있는 데이터를 지속적으로 수집
- 비즈니스 모델 발굴 : 데이터를 기반으로 새로운 서비스나 의사결정 모델 구축
✨ 데이터 품질이 낮으면 발생하는 문제
- 불완전한 데이터 (결측치, NULL 값 등)
- 노이즈 데이터 (오류 값, 잘못된 입력 데이터)
- 모순된 데이터 (서울 주소에 031 국번이 들어간 경우)
6️⃣ 데이터 전처리 (Preprocessing)
✨ 데이터 정제 (Cleaning)
- 결측치 보완 : 누락된 데이터를 평균값 또는 특정 값으로 대체
- 잘못된 값 수정 : 논리적으로 맞지 않는 데이터 수정
- 중복 데이터 제거 : 데이터의 일관성을 유지하기 위해 필요
✨ 데이터 통합 (Intergration)
- 여러 개의 데이터 소스를 통합하여 일관된 저장소 구축
- 예: 서로 다른 시스템에서 수집한 데이터를 하나의 데이터베이스로 결합
✨ 데이터 축소 (Reduction)
- 너무 많은 데이터로 인해 처리 속도가 느려지는 문제 해결
- 필요 없는 속성 제거, 대표 데이터 샘플링
- 분석을 위해 데이터를 정규화(Normalization) 및 그룹화(Aggregation) 수행
7️⃣ 데이터 품질 관리
✨ 데이터 품질 평가 기준
| 품질 요소 | 설명 |
|---|
| 완전성 | 데이터가 누락되지 않고 충분한가? |
| 정확성 | 오류 없이 신뢰할 수 있는가? |
| 유효성 | 데이터가 의미 있는가? |
| 일관성 | 데이터 간의 충돌이 없는가? |
| 적시성 | 최신 데이터가 적절한 시점에 반영되었는가? |
- 데이터 품질이 낮으면 분석 결과도 부정확할 가능성이 높음
- 데이터 정제와 전처리를 통해 최상의 데이터 품질 유지 필요
🚀 결론
- 데이터베이스(DB)는 데이터를 체계적으로 저장, 관리, 검색하는 시스템
- 빅데이터 프로젝트에서 데이터 수집의 중요성이 매우 큼
- 데이터 품질이 낮으면 분석이 무의미하므로 전처리 과정이 필수적
- 데이터는 비즈니스 모델 개발 및 의사결정의 핵심 요소가 될 수 있음
✅ 좋은 데이터 + 적절한 모델 분석 = 성공적인 데이터 활용