데이터베이스 개론

Yuno·2025년 3월 18일

데이터 사이언스

목록 보기
3/25

1️⃣ 데이터베이스 (DB) 개념과 데이터의 형식

✨ 데이터베이스란?

  • 데이터를 효율적으로 저장, 관리, 검색, 수정, 삭제할 수 있는 구조
  • 서랍정리 개념 : 특정한 기준으로 데이터를 분류하여 보관
  • 데이터베이스를 통해 일관성, 무결성, 독립성, 보안성을 보장할 수 있음

✨ 데이터의 형식

  • 정형 데이터 : 테이블, 엑셀처럼 일정한 형식을 가진 데이터 (예: DB 테이블, CSV 파일)
  • 반정형 데이터 : XML, JSON 과 같이 부분적으로 구조가 있는 데이터
  • 비정형 데이터 : 문서, 영상, 이미지처럼 일정한 형식이 없는 데이터

2️⃣ 데이터 중심 프로젝트 vs 일반 IT 프로젝트

구분일반 IT 프로젝트데이터 프로젝트
목적기능 개발데이터 활용
중점사용자 요구 사항데이터 인사이트
핵심 요소UX/UI, 프로세스데이터 수집, 분석
결과물웹/앱, 시스템데이터 기반 의사결정
  • 데이터 프로젝트에서는 데이터 수집과 품질 관리가 중요함
  • 정확하지 않은 데이터는 분석이 무의미하며, 지속적인 수집 가능성도 고려해야 함

3️⃣ 빅데이터 프로젝트의 핵심 고려사항

✨ 데이터 수집의 중요성

  • 잘못된 데이터로부터 올바른 결론을 얻을 수 없음 → 초기 데이터 수집이 중요
  • 지속적으로 데이터를 수집할 수 있는지 확인 필요
  • 데이터 비용, 저작권, 정책 변경 가능성 고려

✨ 데이터 수집 프로세스

  1. 수집 안정성 확보 : 데이터가 안정적으로 지속적으로 제공되는지 검토
  2. 원천 데이터 탐색 : 사용할 수 있는 데이터인지 확인
  3. 데이터 관리 정책 : 데이터의 관리 주체 및 활용 가능성 평가

4️⃣ 데이터의 계층 구조

구분설명
데이터 세트여러 개의 데이터 객체를 포함하는 집합
데이터 객체하나의 관찰 대상 (예: 고객, 제품, 트랜잭션)
데이터 속성데이터 객체가 가지는 특정 속성 (예: 이름, 가격, 날짜)
  • 데이터를 계층적으로 관리하면 분석 및 검색이 용이함

5️⃣ 데이터 프로젝트에서 고려해야 할 요소

✨ 데이터 품질 확보

  • 양질의 데이터 확보 : 정확하고 신뢰할 수 있는 데이터를 지속적으로 수집
  • 비즈니스 모델 발굴 : 데이터를 기반으로 새로운 서비스나 의사결정 모델 구축

✨ 데이터 품질이 낮으면 발생하는 문제

  1. 불완전한 데이터 (결측치, NULL 값 등)
  2. 노이즈 데이터 (오류 값, 잘못된 입력 데이터)
  3. 모순된 데이터 (서울 주소에 031 국번이 들어간 경우)

6️⃣ 데이터 전처리 (Preprocessing)

✨ 데이터 정제 (Cleaning)

  • 결측치 보완 : 누락된 데이터를 평균값 또는 특정 값으로 대체
  • 잘못된 값 수정 : 논리적으로 맞지 않는 데이터 수정
  • 중복 데이터 제거 : 데이터의 일관성을 유지하기 위해 필요

✨ 데이터 통합 (Intergration)

  • 여러 개의 데이터 소스를 통합하여 일관된 저장소 구축
  • 예: 서로 다른 시스템에서 수집한 데이터를 하나의 데이터베이스로 결합

✨ 데이터 축소 (Reduction)

  • 너무 많은 데이터로 인해 처리 속도가 느려지는 문제 해결
  • 필요 없는 속성 제거, 대표 데이터 샘플링

✨ 데이터 변환 (Transformation)

  • 분석을 위해 데이터를 정규화(Normalization) 및 그룹화(Aggregation) 수행

7️⃣ 데이터 품질 관리

✨ 데이터 품질 평가 기준

품질 요소설명
완전성데이터가 누락되지 않고 충분한가?
정확성오류 없이 신뢰할 수 있는가?
유효성데이터가 의미 있는가?
일관성데이터 간의 충돌이 없는가?
적시성최신 데이터가 적절한 시점에 반영되었는가?
  • 데이터 품질이 낮으면 분석 결과도 부정확할 가능성이 높음
  • 데이터 정제와 전처리를 통해 최상의 데이터 품질 유지 필요

🚀 결론

  • 데이터베이스(DB)는 데이터를 체계적으로 저장, 관리, 검색하는 시스템
  • 빅데이터 프로젝트에서 데이터 수집의 중요성이 매우 큼
  • 데이터 품질이 낮으면 분석이 무의미하므로 전처리 과정이 필수적
  • 데이터는 비즈니스 모델 개발 및 의사결정의 핵심 요소가 될 수 있음

좋은 데이터 + 적절한 모델 분석 = 성공적인 데이터 활용

profile
Hello World

0개의 댓글