CS 스터디 4회차 - (1)

hi_rice·2025년 5월 13일

4.1 데이터베이스의 기본

데이터베이스는 일정한 규칙 혹은 규약을 통해 구조화되어 저장되는 데이터 모음이다. 해당 데이터베이스를 제어, 관리하는 통합 시스템을 DBMS라고 하며, 데이터베이스 안에 있는 데이터들은 특정 DBMS마다 정의된 쿼리 언어를 통해 삽입, 삭제, 수정, 조회 등을 수행할 수 있다.
또한, 데이터베이스는 실시간 접근과 동시 공유가 가능하다.

4.1.1 엔터티(Entity)

엔터티는 사람, 장소, 물건, 사건, 개념 등 여러 개의 속성을 지닌 명사를 의미한다. 예를 들어 회원이라는 엔터티가 있다고 한다면 회원은 이름, 아이디, 주소, 전화번호의 속성을 갖는다.

약한 엔터티와 강한 엔터티

엔터티는 약한 엔터티와 강한 엔터티로 나뉜다. 예를 들어 A가 혼자서는 존재하지 못하고 B의 존재 여부에 따라 종속적이라면 A는 약한 엔터티이고 B는 강한 엔터티가 죈다.
방은 건물 안에만 존재하기 때문에 방은 약한 엔터티고 건물은 강한 엔터티라고 할 수 있다.

4.1.2 릴레이션(Relation)

릴레이션은 데이터베이스에서 정보를 구분하여 저장하는 기본 단위이다.
엔터티에 관한 데이터를 데이터베이스는 릴레이션 하나에 담아서 관리한다.
릴레이션은 관계형 데이터베이스에서는 테이블이라고 하고, NoSQL 데이터베이스에서는 컬렉션이라고 한다.

테이블과 컬렉션

데이터베이스의 종류는 크게 관계형 데이터베이스와 NoSQL 데이터베이스로 나눌 수 있다. 대표적인 관계형 데이터베이스인 MySQL의 구조는 레코드-테이블-데이터베이스로 이루어져있고, NoSQL 데이터베이스인 MongoDB는 도큐먼트-컬렉션-데이터베이스로 이루어져있다.

4.1.3 속성(attribute)

속성은 릴레이션에서 관리하는 구체적이며 고유한 이름을 갖는 정보이다. 예를 들어 차라는 엔터티의 속성을 뽑아보면.
차 넘버, 바퀴 수, 차 색깔, 차종 등이 있다. 이 중에서 서비스의 요구 사항을 기반으로 관리해야 할 필요가 있는 속성들만 엔터티의 속성이 된다.

4.1.4 도메인(domain)

도메인이란 릴레이션에 포함된 각각의 속성들이 가질 수 있는 값의 집합을 말한다. 예를 들어 성별이라는 속성이 있다면 이 속성이 가질 수 있는 것은 {남, 여}라는 집합이 된다.

4.1.5 필드와 레코드

회원이란 엔터티는 member라는 테이블로 속성인 이름, 아이디 등을 가지고 있으며 name, ID, address 등의 필드를 가진다. 그리고 이 테이블에 쌓이는 행 단위의 데이터를 레코드라고 한다. 또한, 레코드를 튜플이라고도 한다.

예를 들어 책이라는 엔터티를 정의하고 이를 기반으로 테이블을 만든다고 한다면.

  • 책의 아이디 : INT
  • 책의 제목 : VARCHAR(255)
  • 책의 저자 아이디 : INT
  • 책의 출판년도 : VARCHAR(255)
  • 책의 장르 : VARCHAR(255)
  • 생성 일시 : DATETIME
  • 업데이트 일시 : DATETIME

이 테이블을 MySQL로 구현하면 다음과 같다.

CREATE TABLE book(
	id INT NOT NULL AUTO_INCREMENT,
    title VARCHAR(255),
    author_id INT,
    publising_year VARCHAR(255),
    genre VARCHAR(255),
    created_at DATETIME,
    updated_at DATETIME,
    PRIMARY KEY (id)
);

필드 타입

필드는 타입을 갖는다.

숫자 타입

날짜 타입

DATE

날짜 부분은 있지만 시간 부분은 없는 값에 사용된다. 지원되는 범위는 1000-01-01~9999-12-31이다. 3바이트의 용량을 가진다.

DATETIME

날짜 및 시간 부분을 모두 포함하는 값에 사용된다. 지원되는 범위는 1000-01-01 00:00:00에서 9999-12-31 23:59:59이다. 8파이트의 용량을 가진다.

TIMESTAMP

날짜 및 시간 부분을 모두 포함하는 값에 사용된다. 1970-01-01 00:00:01에서 2038-01-19 03:14:07까지 지원한다. 4바이트의 용량을 가진다.

문자 타입

CHAR와 VARCHAR

CHAR 또는 VARCHAR 모두 그 안에 수를 입력해서 몇 자까지 입력할지 정한다. 예를 들어 CHAR(30)이라면 최대 30글자까지 입력할 수 있다.
CHAR는 고정 길이 문자열이며 길이는 0에서 255 사이의 값을 가진다. 레코드를 저장할 때 무조건 선언한 길이 값으로 고정해서 저장된다. 예를 들어 CHAR(100)으로 선언한 후 10글자를 저장해도 100바이트로 저장되게 된다.
VARCHAR는 가변 길이 문자열이다. 길이는 0에서 65,535 사이의 값으로 지정할 수 있으며, 입력된 데이터에 따라 용량을 가변시켜 저장한다. 예를 들어 10글자의 이메일을 저장할 경우 10글자에 해당하는 바이트 + 길이기록용 1바이트로 저장하게 된다. VARCHAR(10000)으로 선언해도 같다.
그렇기 때문에 CHAR의 경우 유동적이지 않은 길이를 가진 데이터의 경우에 효율적이고 유동적인 길이를 가진 데이터는 VARCHAR로 저장하는 것이 좋다.

TEXT와 BLOB

TEXT는 큰 문자열 저장에 쓰며 주로 게시판의 본문을 저장할 때 쓴다.
BLOB은 이미지, 동영상 등 큰 데이터 저장에 쓴다. 그러나 보통은 아마존의 이미지 호스팅 서비스인 S3를 이용하는 등 서버에 파일을 올리고 파일에 관한 경로를 VARCHAR로 저장한다.

ENUM과 SET

ENUM은 ENUM('w-small', 'small', 'medium', 'large', 'x-large') 형태로 쓰이며, 이 중에서 하나만 선택하는 단일 선택만 가능하고 ENUM 리스트에 없는 잘못된 값을 삽입하면 빈 문자열이 대신 삽입된다. ENUM을 이용하면 x-small 등이 0,1 등으로 매핑되어 메모리를 적게 사용하는 이점을 얻는다. ENUM은 최대 65,535개의 요소들을 넣을 수 있다.
SET은 ENUM과 비슷하지만 여러 개의 데이터를 선택할 수 있고 비트 단위의 연산을 할 수 있으며 최대 64개의 요소를 집어넣을 수 있다는 점이 다르다.
참고로 ENUM이나 SET을 쓸 경우 공간적으로 이점을 볼 수 있지만 애플리케이션의 수정에 따라 데이터베이스의 ENUM이나 SET에서 정의한 목록을 수정해야 한다는 단점이 있다.

4.1.6 관계

데이터베이스에 테이블은 하나만 있는 것이 아니다. 여러 개의 테이블이 있고 이러한 테이블은 서로의 관계가 정의되어 있다. 이러한 관계를 관계화살표로 나타낸다.

1:1 관계

ex. 유저당 유저 이메일이 하나씩 있는 경우

1:N 관계

  • 한 개체가 다른 많은 개체를 포함하는 관계

ex. 한 유저당 어러 개의 상품을 장바구니에 넣는 경우

N:M 관계

  • 테이블 두 개를 직접적으로 연결해서 구축 하지 않음
  • 1:N, 1:M 라는 관계를 갖는 테이블 두 개로 나눠서 설정

ex. 학생과 강의의 관계

4.1.7 키

테이블 간의 관계를 조금 더 명확하게 하고 테이블 자체의 인덱스를 위해 설정된 장치로 기본키, 외래키, 후보키, 슈퍼키, 대체키가 있다.

  • 유일성 : 중복되는 값이 없음
  • 최소성 : 필드를 조합하지 않고 최소 필드만 써서 키를 형성할 수 있음

기본키 (PK, Primary Key)

  • 유일성과 최소성을 만족하는 키
  • 자연키 또는 인조키 중 설정

자연키

중복되지 않는 것을 '자연스레' 뽑다가 나오는 키 - 언젠가는 변하는 속성을 가짐

인조키

인위적으로 생성한 키 - 변하지 않음 -> 보통 기본키로 사용

외래키 (FK, Foreign Key)

  • 다른 테이블의 기본키를 그대로 참조하는 값
  • 개체와의 관계를 식별하는 데 사용

후보키 (candidate key)

  • 기본키가 될 수 있는 후보들
  • 유일성과 최소성을 동시에 만족하는 키

대체키 (alternate key)

  • 후보키가 두 개 이상이 경우 기본키 이외의 남은 후보키들

슈퍼키 (super key)

  • 레코드를 유일하게 식별할 수 있는 유일성을 갖춘 키

0개의 댓글