데이터베이스 시스템은 데이터베이스에 데이터를 저장하고, 저장된 데이터를 관리하여 조직에 필요한 정보를 생성해주는 시스템이다.
흔히 데이터베이스, 데이터베이스 관리 시스템, 데이터베이스 시스템을 같은 의미로 사용하지만, 각 용어의 개념을 구분하고 관계를 명확히 이해할 필요가 있다.
스키마는 데이터베이스에 저장되는 데이터 구조와 제약조건을 정의한 것이다.
그리고 정의된 스키마에 따라 데이터베이스에 실제로 저장된 값이 인스턴스다.
보통 스키마는 한번 정의되면 자주 변경되지 않지만, 인스턴스는 계속 변하는 특성이 있다.
미국의 표준화 기관인 ANSI/SPARC에서는 데이터베이스의 복잡한 내부 구조를 감추고 일반 사용자가 데이터베이스를 쉽게 이해하고 이용할 수 있도록, 3단계 데이터베이스 구조를 제안하였다.
3단계 데이터베이스 구조의 개념
3단계 데이터베이스 구조는 하나의 데이터베이스를 세 단계로 나누어 이해한다.
일반적으로 내부 단계에서 외부 단계로 갈수록 추상화 레벨이 높아진다.
외부 단계는 개별 사용자의 관점에서 데이터베이스를 이해하고 표현하는 단계로, 조직 내 다양한 사용자가 하나의 데이터베이스를 공유하며 사용한다. 하지만, 모든 사용자가 데이터베이스 전체에 관심이 있는 것은 아니다. 사용자마다 사용 목적이 다르기 때문에, 필요한 데이터 내용도 서로 다를 수 있다.
외부 단계에서는 각 사용자가 데이터베이스를 어떻게 보는지를 표현한다. 따라서 사용자마다 생각하는 데이터베이스의 구조가 서로 다를 수 있다. 이 때, 외부 단계에서 사용자에게 필요한 데이터베이스를 정의한 것을 외부 스키마(External Schema)라고 한다.
하나의 데이터베이스에는 여러 개의 외부 스키마가 존재할 수 있으며, 사용 목적이 같은 사용자들끼리 외부 스키마를 공유할 수 있다. 외부 스키마는 전체 데이터베이스 중 사용자가 관심을 가지는 일부분으로 볼 수 있기 때문에, 서브 스키마(Sub-schema)라고도 불린다.
이처럼 외부 단계를 통해 사용자들의 다양한 요구와 관심사에 맞춰 데이터베이스를 효율적으로 관리할 수 있게 된다.
개념 단계는 데이터베이스를 조직 전체의 관점에서 이해하고 표현하는 단계로, 데이터베이스 관리 시스템(DBMS)이나 관리자의 관점에서 모든 사용자에게 필요한 데이터를 통합하여 전체 데이터베이스의 논리적 구조를 정의한다. 이를 개념 스키마(Conceptual Schema)라고 한다.
하나의 데이터베이스에는 개념 스키마가 하나만 존재하며, 각 사용자는 개념 스키마의 일부분을 사용한다. 즉, 외부 스키마는 개념 스키마를 기초로 하여 사용자의 이용 목적에 맞게 만들어진다. 일반적으로 '스키마'라고 하면, 개념 스키마를 의미한다.
개념 스키마는 데이터베이스의 전체적인 논리적 구조를 나타내며, 데이터 항목들간의 관계와 제약조건을 포함한다. 이를 통해 조직 내 모든 사용자의 요구를 충족시키기 위한 데이터베이스의 기반 구조를 제공한다.
내부 단계는 데이터베이스를 물리적 저장장치의 관점에서 이해하고 표현하는 단계로, 데이터베이스 관리 시스템(DBMS)이 데이터를 실제로 저장하는 방법과 관련된 세부 사항을 정의한다. 내부 단계에서는 전체 데이터베이스의 물리적 구조와 데이터 저장 방식, 접근 방법 등을 결정한다. 이를 내부 스키마(Internal Schema)라고 한다.
내부 스키마는 데이터베이스에서 사용되는 실제 파일 구조, 인덱싱 방식, 압축 및 암호화 기술 등을 포함한다. 이러한 정보는 데이터베이스의 효율성과 성능을 결정하는 중요한 요소이다.
내부 단계에서는 개념 스키마와 외부 스키마 사이의 데이터 변환을 처리하며, 사용자의 요청에 따라 개념 스키마에서 정의된 데이터를 실제로 저장된 데이터로 변환한다. 이러한 변환 작업을 데이터 매핑(Data Mapping)이라고 한다.
하나의 데이터베이스에는 세 가지 유형의 스키마가 존재하지만, 각각의 스키마는 데이터베이 스를 바라보는 관점이 다를 뿐 모두 같은 데이터베이스를 표현한다. 실제 데이터는 물리적 저 장 장치에 저장된 데이터베이스에만 존재하므로 사용자가 자신의 외부 스키마를 통해 원하는 데이터를 얻으려면 내부 스키마에 따라 저장된 데이터베이스에 접근해야 한다. 그러므로 세 가지 스키마 사이에는 유기적인 대응 관계가 성립해야 한다.
데이터베이스를 3단계 구조로 나누고, 단계별로 스키마를 유지하며 스키마 사이의 대응 관계를 정의하는 궁극적인 목적은 데이터 독립성을 실현하기 위해서다.
데이터 독립성은 하위 스키마를 변경하더라도, 상위 스키마가 영향을 받지 않는 특성이다.
논리적 데이터 독립성
논리적 데이터 독립성은 개념 스키마가 변경되더라도 외부 스키마가 영향을 받지 않는 것이다.
이를 통해 사용자가 전체 데이터베이스의 논리적 구조 변경 사항을 알 필요가 없게 된다. 개념 스키마가 변경되어도 외부 스키마가 영향을 받지 않는다는 것은 결국 외부 스키마의 사용자가 전체 데이터베이스의 논리적 구조가 변경되었다는 사실을 알 필요가 없음을 의미한다.
물리적 데이터 독립성
물리적 데이터 독립성은 내부 스키마가 변경되더라도 개념 스키마가 영향을 받지 않는 것이다. 그래서 결과적으로 외부 스키마도 영향을 받지 않는다. 데이터베이스의 저장 구조가 변경되어도 개념/내부 사상 정보만 수정하면 논리적 구조에 영향을 주지 않는다.
데이터베이스는 조직 운영에 필요한 실제 데이터를 저장하는데, 저장된 데이터를 올바르게 관리하고 이용하려면 필요한 부가 정보도 저장해야 한다. 대표적인 부가 정보가 스키마와 사상정보다.
데이터베이스에 저장되는 데이터에 관한 정보를 저장하는 곳을 데이터 사전 또는 시스템 카탈로그라고 한다. 데이터베이스에 저장되는 데이터에 관한 정보이므로, 메타 데이터라고도 한다.
데이터 사전은 데이터베이스 관리 시스템이 스스로 생성하고 유지하는 것으로, 데이터베이스 관리 시스템이 주로 접근하지만, 일반 사용자도 접근할 수 있다. 단, 데이터베이스 관리 시스템은 데이터 사전의 내용을 수정, 추가할 수 있지만, 일반 사용자는 저장 내용을 검색만 할 수 있다.
데이터베이스 시스템을 구성하는 하나의 중요 요소는 사용자다.
데이터베이스 관리자(DBA)는 데이터베이스 시스템을 운영, 관리한다. 데이터베이스를 직접 활용하기보다는 조직 내의 사용자를 위해 데이터베이스를 설계 및 구축하고, 제대로 서비스할 수 있도록 데이터베이스를 제어한다.
데이터를 조작(삽입, 삭제, 수정, 검색)하기 위해 데이터베이스에 접근하는 사람들을 일반 사용자라 한다.
그리고 데이터 정의어를 사용할 수도 있지만, 주로 데이터 조작어를 사용한다.
응용 프로그래머는 프로그래밍 언어로 응용 프로그램을 작성할 때, 데이터베이스에 접근하는 데이터 조작어를 삽입하는 사용자다.
데이터 정의어를 삽입할 수도 있지만, 주로 데이터 조작어를 삽입한다.
데이터베이스 관리 시스템에 부탁할 때 사용하는 언어를 데이터 언어라 한다.
데이터 정의어는 새로운 데이터베이스를 구축하기 위해 스키마를 정의하거나 기존 스키마의 정의를 삭제 또는 수정하기 위해 사용하는 데이터 언어다.
데이터 조작어는 사용자가 데이터의 삽입, 삭제, 수정, 검색 등의 처리를 데이터베이스 관리 시스템에 요구하기 위해 사용하는 데이터 언어다.
절차적 데이터 조작어는 사용자가 어떤 데이터를 원하고 해당 데이터를 얻으려면 어떻게 처리해야 하는지를 구체적으로 설명한다.
비절차적 데이터 조작어는 사용자가 어떤 데이터를 원하는지만 설명한다. 즉 해당 데이터를 얻으려면 어떻게 처리해야 하는지는 데이터베이스 관리 시스템에 맡긴다.
비절차적 데이터 조작어는 사용자가 어떤 데이터를 우너하는지만 데이터베이스 관리 시스템에 선언하는 방식이기 때문에 선언적 언어라고도 한다.
-> SQL이 여기에 해당한다.
데이터 제어어는 데이터베이스에 저장된 데이터를 여러 사용자가 무결성과 일관성을 유지하며 문제없이 공유할 수 있도록, 내부적으로 필요한 규칙이나 기법을 정의하는데 사용하는 데이터 언어다.
데이터 제어어를 이용해 규칙이나 기법을 정의하는 이유는 다음과 같은 특성을 보장하기 위해서다.
데이터베이스를 관리하고 사용자의 데이터 처리 요구를 수행하는 데이터베이스 관리 시스템은 데이터베이스 시슽메의 주요 구성 요소다.
질의 처리기는 사용자의 데이터 처리 요구를 해석하여 처리하는 역할을 담당한다.
DDL 컴파일러 : 데이터 정의어로 작성된 스키마의 정의를 해석한다.
DML 프리 컴파일러 : 응용 프로그램에 삽입된 데이터 조작어를 추출하여 DML 컴파일러에 전달한다.
DML 컴파일러 : 데이터 조작어로 작성된 데이터의 처리 요구를 분석하여 런타임 데이터베이스 처리기가 이해할 수 있도록 해석한다.
런타임 데이터베이스 처리기 : 저장 데이터 관리자를 통해 데이터베이스에 접근하여, DML 컴파일러부터 전달받은 데이터 처리 요구를 데이터베이스에서 실제로 진행한다.
트랜잭션 관리자 : 데이터베이스에 접근하는 과정에서 사용자의 접근 권한이 유효한지 검사한다.
저장 데이터 관리자는 디스크에 저장된 데이터베이스와 데이터 사전을 관리하고, 여기에 실제로 접근하는 역할을 담당한다.
현실 세계에 존재하는 데이터를 컴퓨터 세계의 데이터베이스로 옮기는 변환 과정을 보통 데이터 모델링이라 한다. 그런데, 현실 세계에 존재하는 엄청난 양의 데이터 중 필요한 데이터만 선별하려면 상당히 많은 고민과 결정이 필요할 것이다.
현실 세계에서 코끼리에 대한 중요 데이터를 추출하여 개념 세계로 옮기는 작업을 데이터 모델링 과정 중에서도 개념적 모델링이라 한다.
그리고 개념 세계의 데이터를 데이터베이스에 저장할 구조를 결정하고 이 구조로 표현하는 작업을 논리적 모델리이라 한다.
일반적으로 개념적 모델링과 논리적 모델링을 명확히 구분하지는 않고 합쳐서 데이터 모델링이라 부른다.
코끼리 하나를 데이터베이스로 옮기는 일이 쉽지 않았듯, 현실 세계를 데이터베이스로 옮기는 작업은 훨씬 복잡하다. 이러한 데이터 모델링을 쉽게 할 수 있도록 도와주는 도구가 있는데, 이것이 바로 데이터 모델이다.
개체 관계 모델은 피터 첸이 1976년에 제안한 것으로, 개체와 개체 간의 관계를 이용해 현실 세계를 개념적 구조로 표현하는 방법이다.
현실 세계를 개체-관계 모델을 이용해 개념적으로 모델링하여 그림으로 표현한 것을 개체 관계 다이어그램(E-R 다이어그램)이라고 한다.
개체-관계 모델을 제대로 활용하려면, 먼저 개체, 속성, 관계를 이해해야 하므로 각각의 개념을 살펴보자.
개체는 현실 세계에서 조직을 운영하는데 꼭 필요한 사람이나 사물과 같이 구별되는 모든 것을 의미한다.
즉 개체는 저장할 만한 가치가 있는 중요 데이터를 가지고 있는 것이다.
개체는 사람과 사물처럼 물리적으로 존재하는 것만을 의미하지는 않는다. 개념이나 사건처럼 개념적으로만 존재하는 것도 개체가 될 수 있다.
속성은 개체가 가지고 있는 고유한 특성이다.
속성은 그 자체만으로 의미가 없지만, 관련 있는 속성들을 모아 개체를 구성하면 하나의 중요한 의미를 표현할 수 있다. 속성은 일반적으로 의미 있는 데이터의 가장 작은 논리적 단위를 인식된다.
단일 값 속성과 다중 값 속성
특정 개체를 구성하는 속성 값이 하나면 단일 값 속성으로 분류한다.
예를 들어, 고객 개체를 구성하는 이름, 적립금 등의 속성은 한 명의 고객 인스턴스에 대해 하나의 값만 가지므로 단일 값 속성이다.
속성이 값을 여러개 가질 수 있으면 다중 값 속성으로 분류한다.
고객 개체를 구성하는 연락처 속성은 한 명의 고객 인스턴스에 대해 집 전화번호와 휴대폰 번호 등 값을 여러개 가질 수 있으므로 다중 값 속성이다.
다중값 속성은 이중 타원으로 표현한다.
단순 속성과 복합 속성
단순 속성은 의미를 더는 분해할 수 없는 속성이다.
- ex) 책 개체를 구성하는 이름, 가격등의 속성
복합 속성은 의미를 분해할 수 있어 값이 여러개의 의미를 포함한다.
- ex) 주소 속성은 도, 시, 동, 우편번호 등으로 세분화 할 수 있다.
유도 속성
널 속성
키 속성
관계는 개체와 개체가 맺고 있는 의미있는 연관성이다.
관계는 개체 집합들 사이의 대응관계, 즉 매핑을 의미한다.
관계의 유형
관계에 참여하는 개체 타입의 수를 기준으로 이항관계, 삼항 관계, 순환 관계 등으로 나눌 수 있다.
개체 A의 각 개체 인스턴스가 개체 B의 개체 인스턴스 하나와 관계를 맺을 수 있다.
개체 A의 각 개체 인스턴스는 개체 B의 개체 인스턴스 여러개와 관계를 맺을 수 있다.
일반적으로 한 부서에는 사원이 여러 명 소속될 수 있지만, 사원 한 명은 부서 하나에만 소속되기 때문에 두 개체의 소속 관계는 일대다 관계가 된다.
개체 A의 각 개체 인스턴스가 개체 B의 개체 인스턴스 여러개와 관계를 맺을 수 있고, 개체 B의 각 개체 인스턴스도 개체 A의 개체 인스턴스 여러개와 관계를 맺을 수 있다.
일반적으로 고객 한 명이 책을 여러권 구매할 수 있고, 책은 한 종류가 여러 고객에게 판매될 수 있기 때문에 두 개체의 구매 관계는 다대다 관계가 된다.
관계의 참여 특성
필수적 참여 : 개체 A와 B의 관계에서, 개체 A의 모든 개체 인스턴스가 관계에 반드시 참여해야 하는 관계
선택적 참여 : 개체 A의 개체 인스턴스 중, 일부만 관계에 참여해도 되는 관계
관계의 종속성
존재 종속 : 개체 B가 독자적으로는 존재할 수 없고, 다른 개체 A의 존재 여부에 의존적이라면, 개체 B가 개체 A에 종속되어 있다고 한다.
강한 개체와 약한 개체 : 다른 개체의 존재 여부에 의존적인 개체를 약한 개체, 다른 개체의 존재 여부를 결정하는 개체를 강한 개체라고 한다.
예를 들어, 학생과 학부모 관계를 살펴보자. 학교 입장에서 보면 학부모 개체만으로는 의미가 없다. 학생 개체가 있어야 학생을 보호하는 학부모 개체가 존재할 수 있으며, 학생 개체가 없으면 학부모 개체도 필요 없다.