[DB] 정규화

jiyoung·2023년 1월 10일
0

이상 현상

테이블을 잘못 설계하여 삽입, 삭제, 갱신할 때 오류가 발생하게 되는 것으로 테이블 내의 데이터들이 불필요하게 중복되어 테이블을 조작할 때 발생되는 데이터 불일치 현상입니다.

  • 삭제 이상: 한 튜플을 삭제함으로써 유지해야 될 정보까지도 삭제되는 연쇄 삭제 현상이 일어나게 되어 정보 손실이 발생하는 현상
  • 삽입 이상: 어떤 데이터를 삽입하려고 할 때 불필요하고 원하지 않는 데이터도 강제로 삽입해야 하는 현상
  • 갱신 이상: 중복 데이터의 일부 갱신으로 정보의 모순성(inconsistency)이 발생

정규화란 무엇인가요?

정규화는 쉽게 말해서 데이터베이스의 중복을 없애서 이상 현상을 해결하는 작업을 말합니다.

관계형DB에는 특징이 존재합니다. 중복이 되는 것들을 관계라는 것으로 서로 엮여있어서, 특정 데이터의 값이 변할 경우 관련되어있는 모든 데이터가 전부 바뀌게 됩니다. 그래서 중복을 다 날려버릴 필요가 있다는 것입니다.

정규화의 원칙

  • 정보의 무손실: 분해된 릴레이션이 표현하는 정보는 분해되기 전의 정보를 모두 포함해야 합니다.
  • 최소 데이터 중복: 이상 현상을 제거하고 데이터 중복을 최소화 하여야 합니다.
  • 분리의 원칙: 하나의 독립된 관계성은 하나의 독립된 릴레이션으로 분리해서 표현해야 합니다.

정규화의 종류

<1차 정규화>

테이블의 컬럼이 원자값(Atomic Value, 하나의 값)을 갖도록 테이블을 분해하는 것

<2차 정규화>

2정규화는 1정규화에서 중복되는 값이 존재한다면, 그것을 완전 함수 종속을 만족하도록 테이블을 분해하는 것

<3차 정규화>

3정규화는 2정규화를 진행한 후 이행적 함수 종속성을 제거한 것으로 여기서 이행적 종속이라는 것은 A -> B, B -> C가 성립할 때 A -> C가 성립되는 것을 의미함

정규화 예시

🗝️1번 예시

  • 1차 정규화

    -위의 테이블을 보면 주문상품에 여러개의 물건이 들어가있는 것을 확인할 수 있다.
    -일단 이것부터 쪼개주는 작업이 필요하다.


    -위의 사진 두개를 보면, 구매하려고 하는 주문상품의 개수만큼 늘어났고 각각 오직 1개의 값만 들어가있는 것을 확인할 수 있다.
    -하지만 유심히 보면 중복되는 것이 존재한다.
    -뭔가 주문번호라는 것을 기준으로 분리를 할 수 있을 것 같고, 상품명이 중복되는게 많으니 이것도 줄여볼 수 있을 것 같다.

  • 2차 정규화

    -2정규화까지 진행한 상태
    -깔끔해보이지만, 여기서도 문제를 확인할 수 있다. 보통 이행적 함수 종속성 이라는 말을 사용하는데, A->B B->C A->C 관계가 있는 것을 이야기한다.
    -여기서는 생성번호 -> 주문번호, 주문번호 -> 상품번호, 생성번호 -> 상품번호의 관계가 만들어져있는데 이것을 완벽하게 분리하지 않을 경우 이상현상이 발생하게 된다.

  • 3차 정규화

    -이렇게 될 경우 서로 영향을 받지 않게 된다. 사용자가 없더라도, 상품을 추가할 수 있으며 사용자는 상품이 없더라도 회원가입을 할 수 있다.

🗝️2번 예시

  • 1차 정규화

  • 2차 정규화

    -위 테이블의 기본키는 (이름, 좋아하는 음식)으로 복합키이다. 즉, 이 두 개가 합쳐져야 한 로우를 구분할 수가 있다.
    -근데 '나이'의 경우 이 기본키 중에 '이름'에만 종속되어 있다.
    -즉, '이름' 컬럼의 값을 알면 '나이'의 값을 알 수 있다.
    -따라서 '나이'가 두 번 들어가는 것은 불필요한 것이다.

  • 3차 정규화

    -위의 테이블을 보면 'zip code' 키를 통해 '도시'를 결정할 수 있다.
    -여러 사람들이 동일한 'zip code'를 가지면 '도시'가 결정되기 때문에, 이 컬럼들에는 중복된 데이터가 생길 수 있다.

    -이를 해결하기 위해서, 테이블을 논리적인 단위(사람, 주소)로 분리한다.

🗝️3번 예시

  • 1차 정규화

  • 2차 정규화

    -이 테이블에서 기본키는 (학생번호, 강좌이름)으로 복합키이다.
    -그리고 (학생번호, 강좌이름)인 기본키는 성적을 결정하고 있다. (학생번호, 강좌이름) --> (성적)
    -그런데 여기서 강의실이라는 컬럼은 기본키의 부분집합인 강좌이름에 의해 결정될 수 있다. (강좌이름) --> (강의실)
    -즉, 기본키(학생번호, 강좌이름)의 부분키인 강좌이름이 결정자이기 때문에 위의 테이블의 경우 다음과 같이 기존의 테이블에서 강의실을 분해하여 별도의 테이블로 관리하여 제2 정규형을 만족시킬 수 있다.

  • 3차 정규화

-기존의 테이블에서 학생 번호는 강좌 이름을 결정하고 있고, 강좌 이름은 수강료를 결정하고 있다. 그렇기 때문에 이를 (학생 번호, 강좌 이름) 테이블과 (강좌 이름, 수강료) 테이블로 분해해야 한다.
-이행적 종속을 제거하는 이유는 비교적 간단하다. 예를 들어 501번 학생이 수강하는 강좌가 스포츠경영학으로 변경되었다고 하자. 이행적 종속이 존재한다면 501번의 학생은 스포츠경영학이라는 수업을 20000원이라는 수강료로 듣게 된다. 물론 강좌 이름에 맞게 수강료를 다시 변경할 수 있지만, 이러한 번거로움을 해결하기 위해 제3 정규화를 하는 것이다.
-즉, 학생 번호를 통해 강좌 이름을 참조하고, 강좌 이름으로 수강료를 참조하도록 테이블을 분해해야 하며 그 결과는 다음의 그림과 같다.


[참고자료]

0개의 댓글