reference: "데이터베이스 개론" / 김연희 / 한빛아카데미
데이터 모델링을 통해 현실 세계의 데이터를 DB에 저장하려면 논리적 데이터 모델 중 하나를 선택해야 한다. 그 중 가장 인기있는 데이터 모델이 관계 데이터 모델이다. 그리고 이 관계 데이터 모델이 따라 제작된 DB를 관계 데이터베이스(Relational Database, RDB)라 한다. 그냥 DB를 말할 때 이 RDB를 의미할 만큼 많이 사용되는 모델과 DB이다.
일반적으로 관계 데이터 모델에서는 하나의 개체에 관한 데이터를 릴레이션(relation) 하나에 담아 DB에 저장한다.
릴레이션은 관계형 데이터베이스에서는 '테이블'이라하고, NoSQL DB에서는 '컬렉션'이라 한다.
source: https://hoit1302.tistory.com/126
※ 속성, 필드 등 특정 영역에서만 쓰이는 용어는 아님.
속성 == 필드로 이해한다.
※ 튜플, 레코드 등 특정 영역에서만 쓰이는 용어는 아님.
튜플 == 레코드로 이해한다.
source: http://wiki.hash.kr/index.php/%EB%A6%B4%EB%A0%88%EC%9D%B4%EC%85%98
일반적으로 DB는 릴레이션 여러 개로 구성된다. 예를 들어 쇼핑몰 운영을 위한 DB는 고객 릴레이션, 상품 릴레이션, 주문 릴레이션 등으로 구성될 수 있다.
DB의 전체 구조를 의미하는 DB 스키마는 DB를 구성하는 릴레이션들의 스키마를 모아놓은 것이다.
따라서 특정 DB 스키마를 설계한다는 의미는 필요한 모든 릴레이션의 스키마를 모두 정의하는 것이다.
그리고 DB 인스턴스는 어느 한 시점에서 DB에 저장된 데이터 내용의 전체 집합을 의미힌다. 즉 DB를 구성하는 모든 릴레이션의 인스턴스를 모아놓은 것이다.
관계 데이터 모델의 릴레이션에는 중요한 4가지 특성이 있다. 이 4가지 특성을 기본으로 만족시켜야 테이블이 릴레이션으로 인정받을 수 있다.
1. 튜플의 유일성: "하나의 릴레이션에는 동일한 튜플이 존재할 수 없다."
2. 튜플의 무순서: "하나의 릴레이션에서 튜플 사이의 순서는 무의미하다."
3. 속성의 무순서: "하나의 릴레이션에서 속성 사이의 순서는 무의미하다."
4. 속성의 원자성: "속성 값으로 원자 값만 사용할 수 있다.""
튜플을 유일하게 구별하기 위해 모든 속성을 이용하는 것보다 일부 속성만 이용하는 것이 효율성을 높일 수 있다. 릴레이션에 포함된 튜플들을 유일하게 구별해주는 역할은 속성 또는 속성들의 집합인 키가 담당한다. 키는 관계 데이터 모델에서 중요한 제약조건을 정의한다.
source: https://ooeunz.tistory.com/3
"최소성"은 키를 구성하고 있는 여러 속성 중에서 하나라도 없으면 튜플을 유일하게 구별할 수 없는, 꼭 필요한 최소한의 속성들로만 키를 구성하는 특성이다(하나의 속성으로 구성된 키는 당연히 최소성을 만족).
후보키가 되기 위해 만족해야 하는 유일성과 최소성의 특성은 새로운 튜플이 삽입되거나 기존 튜플의 속성 값이 바뀌어도 유지되어야 한다.
그리고 후보키를 선정할 때는 현재의 릴레이션 내용, 즉 릴레이션 인스턴스만 보고 유일성과 최소성을 판단해서는 안 된다. DB가 사용될 현실 세계의 환경까지 염두에 두고 속성의 본래 의미를 정확히 이해한 후 슈퍼키와 후보키를 선별해야 한다. 예를 들어 고객 릴레이션에서 현재 고객 이름 속성의 값이 중복되지 않았다는 이유로 이를 키로 고객 이름 만을 후보키로 두어선 안된다. 고객 이름이 언제나 다를 것이라고 보장할 수 없고, 실제 현실 세계에서도 충분히 같은 이름의 고객이 있을 수 있기 때문이다.
후보키 중 무엇을 기본키로?
위와 같은 고객 릴레이션이 있다. 여기서 후보키는 (고객 아이디), (고객 이름, 주소)가 있다(가족끼리 동명이인은 없음). 어떤 후보키를 기본키로 지정하는 것이 좋을까? 기본키를 선택할 때 고려하면 도움이 되는 몇 가지 기준이 있다.
1. 널 값을 가질 수 있는 속성이 포함된 후보키는 기본키로 부적합하다.
기본키가 널 값인 튜플은 다른 튜플과 구별하여 접근하기 어려우므로 이런 가능성이 있는 키는 기본키로 선택하지 않는 것이 좋다.
고객 아이디는 회원가입 시 반드시 입력해야 하지만 고객이름이나 주소는 입력하지 않아도 되는 경우가 많다. 이런 경우에는 고객 아이디를 기본키로 선택하는 것이 좋다.
2. 값이 자주 변경될 수 있는 속성이 포함된 후보키는 기본키로 부적합하다.
기본키는 다른 튜플과 구별되는 값을 가지고, 널 값은 허용하지 않으므로 이를 확인하는 작업이 필요하다. 그런데 값이 자주 변경되는 속성으로 구성된 후보키를 기본키로 선택하면 속성 값이 변경될 때마다 기본키 값으로 적합한 지 여부를 판단해야 하므로 번거롭다(성능이 떨어진다).
보통 주소는 고객 아이디와 이름보다 변경될 가능성이 높다. 따라서 주소 속성이 포함되지 않은 고객 아이디를 기본키로 선택하는 것이 좋다.
3. 단순한 후보키를 기본키로 선택한다.
단순한 후보키는 자리수가 적은 정수나 단순 문자열인 속성으로 구성되거나, 구성하는 속성의 개수가 적은 후보키를 말한다. DB를 실제로 처리하는 컴퓨터 시스템의 연산 복잡도를 줄이기 위해 단순 값으로 이루어진 또는 속성의 갯수가 적은 후보키를 기본키로 선택하는 것이 좋다.
source: https://blog.daum.net/vkfksskfk2/10
위 그림에서 고객 릴레이션과 주문 릴레이션의 관계를 살펴보자,
고객 릴레이션의 속성은 6개이고, 고객 아이디 속성이 기본키이다.
주문 릴레이션의 속성은 6개이고, 주문번호 속성이 기본키이다.
주문 릴레이션의 주문 고객 속성이 고객 릴레이션의 기본키인 고객 아이디 속성을 참조하면 주문 고객 속성이 외래키이다.
외래키를 통해 고객 릴레이션과 주문 릴레이션이 관계를 맺어 주문 릴레이션의 튜플과 연관성 있는 고객 릴레이션의 튜플을 연결시킬 수 있다.
일반적으로 주문 릴레이션과 같이 외래키를 가진 릴레이션을 참조 릴레이션이라 하고, 고객 릴레이션과 같이 기본키를 가진 릴레이션을 참조되는 릴레이션이라 한다.
외래키가 되는 속성과 기본키가되는 속성의 이름은 달라도 되지만, 외래키 속성의 도메인과 참조되는 기본키 속성의 도메인은 반드시 같아야 한다.
만약 외래키가 참조되는 릴레이션의 기본키가 아닌 다른 속성을 참조한다면 어떻게 될까? 기본키가 아니면 튜플을 유일하게 구별하기 어렵기에 참조되는 릴레이션에서 관련있는 튜플을 검색하지 못할 수 있다. 그러므로 외래키는 반드시 다른 릴레이션의 기본키를 참조해야 하며 외래키의 도메인은 참조되는 기본키와 같게 정의되어야 한다.
조금 더 복잡한 외래키 사례
source: https://velog.io/@sunnysideup/5.-%EA%B4%80%EA%B3%84-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%AA%A8%EB%8D%B8
하나의 릴레이션에는 외래키가 여러 개 존재할 수 있다. 위 그림과 같이 세 개의 릴레이션(학생/상담/교사)은 외래키를 이용해 서로의 관계를 맺어진다.
참조하는 릴레이션과 참조되는 릴레이션이 같은 경우도 있다.
source: https://velog.io/@wilko97
직원 릴레이션은 직원 번호 속성이 기본키이다. 그리고 매니저 번호 속성은 직원을 관리하는 매니저 번호를 의미하는 속성이므로 같은 릴레이션의 직원 번호, 즉 기본키를 참조하는 외래키이다. 이처럼 직원 릴레이션은 기본키와 외래키가 하나의 릴레이션에서 표현되며, 이것은 직원 릴레이션이 자기 자신의 릴레이션과 관계를 맺고 있음을 의미한다.
관계 데이터 모델에서 정의하고 있는 기본 제약 사항은 키와 관련한 무결성 제약조건이다.
무결성은 데이터에 결함이 없는 상태, 즉 데이터를 정확하고 유효하게 유지하는 것이다.
무결성 제약조건의 주요 목적은 DB에 저장된 데이터의 무결성을 보장하고, DB의 상태를 일관되게 유지하는 것이다.
무결성 제약조건은 어느 시점에 DB에 저장된 데이터를 의미하는 DB 상태 또는 DB 인스턴스가 항상 지켜야 하는 중요한 규칙이다. DB가 삽입/삭제/수정 연산으로 상태가 변하더라도 무결성 제약조건은 반드시 지켜져야 한다.
관계 데이터 모델이 기본으로 포함하고 있는 무결성 제약조건에는 개체 무결성 제약조건과 참조 무결성 제약조건이 있다.
source: https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=james_parku&logNo=110175820697
source: https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=james_parku&logNo=110175820697
외래키의 값이 NULL이라면 참조 무결성 제약조건을 위반한 것일까? 그렇지만은 않다.
source: https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=james_parku&logNo=110175820697
수강 릴레이션의 학번 속성이 널이라는 것은 수강하는 학생이 누구인지 모르는 것이지 학생 릴레이션에 존재하지 않은 학생이 수강하는 것(참조 무결성 제약조건 위반)으로 판단하기는 어렵기 때문이다. 따라서 참조 무결성 제약조건을 만족시키려면 외래키가 참조 가능한 값만 가져야 하지만, 널 값을 가진다고 해서 참조 무결성 제약조건을 위반한 것으로 판단해서는 안된다.
특정 릴레이션에 새로운 튜플을 삽입하는 상황에서는 해당 릴레이션이 지정한 기본키를 바탕으로 개체 무결성 제약조건을 위반하지 않는지 확인해야 한다.
이 때 이 릴레이션이 다른 릴레이션을 참조하는 릴레이션이라면, 즉 외래키가 존재하는 릴레이션이라면 참조 무결성 제약조건도 확인해야 한다. 만약 외래키 속성 값으로 참조할 수 없는 값으로 선택되면 이 릴레이션에 새로운 튜플을 삽입하는 연산의 수행을 거부하면 된다.
참조되는 릴레이션에 튜플 삭제 연산은 참조 무결성 제약조건을 위반하지 않는 경우에만 수행된다. 만약 삭제되는 튜플(이하 튜플 A)의 기본키 값을 참조하는 릴레이션의 튜플 중 이 삭제될 튜플을 참조하는 튜플(이하 튜플 B)이 존재하고 있다면 삭제 연산을 수행하지 못한다는 뜻이다. 하지만 다음과 같은 방식들로 삭제 연산을 수행할 수 있다.
참조되는 릴레이션의 튜플의 속성 값을 변경할 시 이 속성이 기본키 속성이라면 마찬가지로 참조 무결성 제약조건을 위반하지 않는 경우에만 수행된다. 튜플 B가 존재하는 상태에서 튜플 A의 기본키 값을 변경하려면 이 연산을 수행하지 못한다는 뜻이다. 하지만 다음과 같은 방식들로 변경 연산을 수행할 수 있다.
DB 상태가 빈번하게 변경되는 경우 참조 무결성 제약조건을 계속 만족시키기 어렵다. 하지만 이를 DBMS에서 자동으로 수행하기에 새로운 릴레이션을 생성할 때마다 어떤 속성들이 외래키이고 어떤 릴레이션의 기본키를 참조하는지, 그리고 참조 무결성 제약조건을 위반하게 되는 경우 원하는 처리 방법도 알려주면 된다.