DB - "데이터베이스 개론" 정리노트 - 1. 데이터베이스 기본 개념

송준섭 Junseop Song·2023년 6월 26일

데이터베이스

목록 보기
1/6
post-thumbnail

⛳️ 목적

이 글은 "데이터베이스 개론" 책을 읽고 공부한 내용들을 두고두고 보기 위해 정리하는 글이다.
읽을 때마다 그 날의 내용들을 꾸준히 이어서 업데이트 할 예정이다.


🗓️ 2023.06.26 작성 ▽

①  데이터베이스 기본 개념

📌  데이터베이스의 필요성

1. 데이터와 정보

❗️ 데이터
현실 세계에서 단순히 관찰하거나 측정하여 수집한 사실이나 값(=자료)
ex) 목장에서 방금 짠 원유

❗️ 정보
데이터를 의사 결정에 유용하게 활용할 수 있도록 정리하여 체계적으로 조직한 결과물.
ex) 가공하여 팩에 담는 우유

❗️ 정보처리
데이터에서 정보를 추출하는 과정

2. 정보 시스템과 데이터베이스

❗️ 정보 시스템
조직 운영에 필요한 데이터를 수집하여 저장해두었다가 의사 결정이 필요할 때 처리하여 유용한 정보를 만들어주는 수단

❗️ 데이터베이스
정보 시스템 안에서 데이터를 저장하고 있다가 필요할 때 제공하는 역할

📌  데이터베이스의 정의와 특징

1. 데이터베이스의 정의

❗️ 데이터베이스
일반적으로 특정 조직의 여러 사용자가 '공유'하여 사용할 수 있도록 '통합'해서 '저장''운영'데이터의 집합

  • '공유'의 데이터베이스
    특정 조직의 여러 사용자가 함께 소유하고 이용한다.
    사용 목적이 다른 사용자들을 두루 고려하여 데이터베이스를 구성해야한다.
  • '통합'의 데이터베이스
    데이터베이스는 데이터 중복성, 즉 똑같은 데이터가 여러 개 존재하는 것을 지양한다.
    하지만 효율성 때문에 중복을 의도적으로 허용하는 경우가 없는 것은 아니다.
    -> 데이터의 중복을 최소화하고 통제 가능한 중복만 허용하는 통합적 데이터
  • '저장'의 데이터베이스
    데이터베이스의 데이터를 주로 처리하는 컴퓨터가 접근할 수 있는 매체에 저장되어야 한다.
  • '운영'의 데이터베이스
    조직 운영 및 조직 주요 기능 수행에 꼭 필요한 데이터베이스.
    지속적으로 유지해야 하는 데이터.

2. 데이터베이스의 특징

❗️ 데이터베이스는 실시간 접근이 가능하다.
사용자의 데이터 요구에 실시간 응답.
최소한의 응답 시간에 데이터를 제공해야함.

❗️ 데이터베이스는 계속 변화한다.
현실 세계의 상태를 반영.
변화된 정보에 대한 동적인 삽입, 삭제, 수정.

❗️ 데이터베이스는 동시 공유가 가능하다.
여러 사용자가 동시에 이용.
같은 데이터를 동시에 사용하도록 조직 및 관리.

❗️ 데이터베이스는 내용으로 참조가 가능하다.
저장된 주소나 위치가 아닌 데이터의 내용(값)으로 참조할 수 있음.
ex) 재고량이 100개 이상인 제품의 이름 검색

📌  데이터 과학 시대의 데이터

1. 형태에 따른 데이터 분류

❗️ 정형 데이터
미리 정해진 구조(스키마)가 있는 데이터
ex) 엑셀의 스프레드시트, 관계 데이터베이스의 테이블

❗️ 반정형 데이터
내용 안에 구조에 대한 설명이 같이 있는 데이터
구조를 파악하는 파싱 과정이 필요하며, 보통 파일 형태로 저장된다.
내용과 함께 설명된 데이터 구조를 스키마라고도 하지만 메타 데이터라고도 한다.
ex) HTML, XML, JSON 문서, 센서 데이터

❗️ 비정형 데이터
정해진 구조가 없는 데이터
ex) 소셜 데이터의 텍스트, 영상, 이미지, 음성


🗓️ 2023.06.27 작성 ▽

2. 특성에 따른 데이터 분류

❗️ 범주형 데이터
범주(종류)로 구분할 수 있는 값을 가진 데이터
ex) 성별, 학년, ,,,
명목형 데이터와 순서형 데이터로 세분화

  • 명목형 데이터
    성별, MBTI등 순서, 서열이 없는 값을 가지는 데이터
  • 순서형 데이터
    학년, 학점, 회원 등급 등 순서, 서열이 있는 값을 가지는 데이터

❗️ 수치형 데이터
양적 측면에서 크기 비교와 산술적인 연산이 가능한 숫자 값을 가지는 데이터
-> 양적 데이터라고도 함
ex) 키, 몸무게, 고객 수, 판매량, ,,,
이산형 데이터와 연속형 데이터로 세분화

  • 이산형 데이터
    고객수, 판매량 등 개수를 셀 수 있는, 이어지지 않고 띄엄띄엄 단절된 숫자 값을 가지는 데이터
    보통 소수점이 없는 정수 타입의 값으로 표현
  • 연속형 데이터
    키, 몸무게, 온도 등 연속적으로 이어진 숫자 값을 가지는 데이터
    보통 소수점이 있는 실수 타입의 값으로 표현

❗️ +) 정성적 데이터와 정량적 데이터
좁은 의미로는 범주형 데이터를 정성적 데이터로, 수치형 데이터를 정량적 데이터로 볼 수 있음
넓은 의미로 사람의 주관적인 생각과 평가를 기술한 비정형 데이터를 정성적 데이터로, 객관적인 측정을 통해 수치나 도형, 기호 등으로 표현한 정형 데이터를 정량적 데이터로 정의하기도 함
보통 저장 및 처리 비용은 정성적 데이터가 더 많이 든다.

0개의 댓글