[Database] 정규화란? 정규화의 장단점

나른한 개발자·2026년 1월 20일

f-lab

목록 보기
33/46

정규화 (Normalization)

정규화(Normalization)의 기본 목표는 테이블 간에 중복된 데이타를 허용하지 않는다는 것이다. 중복된 데이터를 허용하지 않음으로써 무결성(Integrity)를 유지할 수 있으며, DB의 저장 용량 역시 줄일 수 있다.

이러한 테이블을 분해하는 정규화 단계가 정의되어 있는데, 여기서 테이블을 어떻게 분해되는지에 따라 정규화 단계가 달라지는데, 각각의 정규화 단계에 대해 자세히 알아보도록 하자. 

제1 정규화

제1 정규화란 테이블의 컬럼이 원자값(Atomic Value, 하나의 값)을 갖도록 테이블을 분해하는 것이다. 예를 들어 아래와 같은 고객 취미 테이블이 존재한다고 하자. 

위의 테이블에서 추신수와 박세리는 여러 개의 취미를 가지고 있기 때문에 제1 정규형을 만족하지 못하고 있다. 그렇기 때문에 이를 제1 정규화하여 분해할 수 있다. 제1 정규화를 진행한 테이블은 아래와 같다.

제2 정규화

제2정규화는 부분 함수 종속을 제거하는 과정이다. 테이블이 제2정규화를 만족하려면 1. 제1정규화를 만족해야 하고, 2. 모든 비주요 속성이 기본키에 완전 함수 종속되어야 한다.

부분 함수 종속이란 복합키(여러 개의 속성으로 구성된 기본키)의 일부분에만 종속되는 경우를 말한다. 예시로 함께 보자.


제 2 정규화 전 모습이다. 기본키는 학번과 과목코드이다. 여기서 잘 살펴보면 학생 이름은 학번에만 종속되고 과목목은 과목 코드에만 종속된다. 이러한 상태를 부분 함수 종속이라 한다.

이 과정에서 정규화를 거치면 다음과 같은 테이블이 될 것이다.

학생 테이블

과목 테이블

수강 테이블

학번과 학생이름을 학생 테이블로 구분하고, 과목명과 과목코드를 과목 테이블로 구분하였다. 그 후에 수강 테이블에는 학생 이름과 과목명없이 학번과 과목 코드만을 기본키로 설정하여 완전 함수 종속으로 만들었다. 제 2정규화를 통해 다음의 이점을 얻을 수 있다.

  • 데이터 중복 감소: 학생이름과 과목명이 반복 저장되지 않음
  • 갱신 이상 방지: 학생이름 변경 시 한 곳만 수정하면 됨
  • 삽입/삭제 이상 방지: 수강하지 않는 학생이나 개설되지 않은 과목도 독립적으로 관리 가능

제 3 정규화

제 3 정규화는 제2정규화를 거친 테이블에 대해 이행적 함수 종속을 제거하는 과정이다. 테이블이 제3정규화를 만족하려면 1. 제2정규화를 만족해야 하고 2. 기본키가 아닌 모든 속성이 기본키에 직접 종속되어야 한다.(이행적 종속 제거)

이행적 함수 종속이란 A → B이고 B → C일 때, A → C가 성립하는 간접적인 종속 관계를 말한다.


위 테이블은 제2정규화 후 상태의 테이블이다. 기본키는 학번이다. 여기서 문제점은 학번 -> 학과코드 -> 학과명, 학과 사무실 으로의 이행적 종속이 생겨났다는 점이다. 학과명과 학과사무실이 학번에 직접 종속되지 않고 학과코드를 통해 간접적으로 종속되고 있다. 이 테이블을 제3정규화 시키면 다음과 같이 테이블이 구성될 것이다.

학생 테이블

학과 테이블

또다른 예시로 주문 테이블이다.

제3정규화 전에는 주문번호 → 고객ID → 고객등급 → 할인율으로의 이행적 종속이 생겼다. 이를 정규화하면 다음과 같이 테이블을 나눌 것이다.

주문 테이블

고객 테이블

등급 테이블

제3정규화 후 아래와 같은 효과를 얻었다.

  • 데이터 중복 최소화: 학과 정보가 한 번만 저장됨
  • 갱신 이상 방지: 학과사무실 변경 시 학과 테이블만 수정
  • 데이터 무결성 향상: 학과 정보가 일관되게 유지됨
  • 저장 공간 절약: 반복되는 데이터 제거

제3정규화까지는 실무에서 가장 많이 사용하며 대부분의 이상 현상 제거할 수 있다. 제4정규화나 BCNF는 이론적으로 더 완벽하지만, 때로는 엔티티 수와 에니티 사이의 관계가 증가하고 데이터 조회시 조인이 늘어나 조회 성능이 하락할 수 있다. 따라서 상황에 따라 선택적으로 적용하면 좋다.

BCNF 정규화

BCNF는 제3정규화를 더 강화한 형태로, 모든 결정자가 후보키여야 한다는 조건을 추가한 정규화이다.

여기서 결정자(Determinant)란 A → B에서 A를 말한다. A의 값이 정해지면 B의 값이 유일하게 결정되는 관계이다. 제3정규화를 만족하더라도 후보키가 아닌 결정자가 존재하면 BCNF를 위반하게 된다.

위 테이블은 제3정규화를 한 테이블 모습이다. 특강수강 테이블에서 기본키는 (학생번호, 특강이름)이다. 그리고 기본키 (학생번호, 특강이름)는 교수를 결정하고 있다. 또한 여기서 교수는 특강이름을 결정하고 있다. 그런데 문제는 교수가 특강이름을 결정하는 결정자이지만, 후보키가 아니라는 점이다. 이 상태라면 아래와 같은 문제가 생길 수 있다.

  • 삽입 이상: 아직 수강생이 없는 최교수 - 운영체제 정보를 저장할 수 없음
  • 갱신 이상: 김교수가 담당 과목을 변경하면 여러 행을 수정해야 함
  • 삭제 이상: 502 학생이 수강 취소하면 "박교수 - 창업전략" 정보가 사라짐

그렇기 때문에 BCNF 정규화를 만족시키기 위해서 위의 테이블을 분해해야 하는데, 다음과 같이 특강신청 테이블과 특강교수 테이블로 분해할 수 있다.

제 4정규화

제 4정규화는 BCNF를 만족하는 테이블에 대해, 다치 종속을 제거하는 것이다.

다치 종속이란 같은 테이블 내의 독립적인 두 개 이상의 컬럼이 또 다른 컬럼에 종속되는 것을 말한다. A -> B인 의존성에서 단일 값 A와 다중 값 B가 존재한다면 다치 종속이라 한다. 이러한 종속을 A->>B로 표기한다. 다치 종속은 최소 2개의 컬럼이 다른 컬럼에 종속되어야 하기 때문에 최소 3개의 컬럼이 필요하다.


위 테이블에서는 개발자가 자격증을 결정하고, 동시에 언어도 결정한다. 이와 같은 경우 다치 종속을 만족하므로, 다치 종속을 없애기 위해 다음과 같이 테이블을 분리할 수 있다.

제5정규화

제 5정규화는 4정규형을 만족하는 테이블에 대해 조인 종속을 제거하는 것을 의미한다. 조인 종속이란 하나의 릴레이션을 여러 개의 릴레이션으로 분해했다가, 다시 조인했을 때 데이터 손실이
없고, 필요없는 데이터가 생기는 것을 말한다. 조인 종속성은 다치 종속의 개념을 더 일반화 한 것이다.

이 예제를 조인 시켜보면,


이와같은 결과가 나온다. 조인 이후 필요없는 데이터가 생겨난 것을 확인할 수 있다. 이러한 조인 종속을 제거하기 위해 테이블을 다음과 같이 분리할 수 있다.

정규화 장단점

장점

  • 데이터 중복 최소화: 같은 정보가 여러 곳에 저장되지 않아 저장 공간이 절약된다. 예를 들어 학생 정보가 수강 테이블마다 반복되지 않고 학생 테이블에만 한 번 저장된다.
  • 데이터 무결성 향상: 데이터가 한 곳에만 있으니 일관성을 유지하기 쉽습니다. 학생 이름을 수정할 때 한 곳만 바꾸면 되니 실수로 일부만 수정하는 일이 없어요.
  • 이상 현상 방지: 삽입, 갱신, 삭제 이상이 제거됩니다. 수강생이 없어도 과목 정보를 저장할 수 있고, 한 학생의 정보 변경이 다른 데이터에 영향을 주지 않습니다.
  • 유지보수 용이: 구조가 논리적이고 명확해서 데이터베이스를 관리하고 수정하기 쉽습니다. 새로운 개발자가 봐도 테이블 간 관계를 이해하기 쉬워요.
  • 데이터 품질 향상: 중복이 없으니 데이터 불일치 문제가 발생하지 않고, 데이터의 정확성과 신뢰성이 높아집니다.

단점

  • 조회 성능 저하: 여러 테이블로 나뉘어 있어 데이터를 조회할 때 JOIN 연산이 많이 필요하다.
  • 쿼리 복잡도 증가: 간단한 정보를 가져오는 것도 여러 테이블을 참조해야 해서 SQL 쿼리가 복잡해진다.
  • 설계 복잡성: 초기 데이터베이스 설계 시 함수 종속성을 분석하고 적절히 테이블을 분리하는 과정이 복잡하고 시간이 걸린다.
  • 과도한 정규화 위험: BCNF, 4NF, 5NF까지 가면 테이블 수가 지나치게 많아져 오히려 관리가 어려워질 수 있다.
  • 실시간 처리 부담: JOIN이 많으면 대용량 데이터를 실시간으로 처리할 때 응답 시간이 느려질 수 있다.

데이터베이스 정규화는 데이터의 중복을 줄이고, 무결성을 유지하며, 저장 공간을 효율적으로 사용하는 데 매우 유용하다. 하지만 지나친 정규화는 시스템 성능에 부정적인 영향을 미칠 수 있으며, 관리의 복잡성을 증가시킬 수 있다. 따라서 데이터베이스 설계 시 정규화를 어느 정도까지 적용할지에 대한 균형 잡힌 접근이 필요하다.

데이터의 특성과 시스템 요구 사항에 맞는 최적의 정규화 수준을 결정하는 것이 중요한데, 경우에 따라 비정규화(Denormalization)를 통해 성능을 개선할 수도 있다.

데이터베이스 정규화는 데이터의 중복을 줄이고, 무결성을 유지하며, 효율적인 데이터 구조를 만들기 위한 과정입니다. 정규화의 가장 큰 장점 중 하나는 데이터 중복을 줄여준다는 것입니다. 중복된 데이터는 저장 공간을 낭비할 뿐만 아니라, 데이터 변경 시 여러 테이블을 수정해야 하는 번거로움을 초래합니다. 하지만 정규화된 구조에서는 한 곳에서만 수정하면 되므로 유지보수가 훨씬 간단해집니다. 정규화를 통해 데이터의 일관성과 정확성을 유지할 수 있습니다. 테이블 간에 관계를 명확하게 정의하고, 데이터가 일관되게 입력되도록 강제함으로써 데이터 무결성을 확보할 수 있습니다. 이는 잘못된 데이터 입력이나 갱신 시 오류를 방지할 수 있습니다. 다만 정규화는 데이터를 여러 테이블로 분할하여 저장하기 때문에, 데이터를 조회할 때 여러 테이블을 조인(Join)해야 할 수 있습니다. 쿼리의 복잡성을 증가시키며, 특히 많은 데이터를 조회할 때 성능 저하를 일으킬 수 있습니다. 정규화는 데이터베이스의 설계를 더 복잡하게 만들 수 있습니다. 테이블의 수가 많아지고, 이들 간의 관계를 설계하는 과정이 까다로워집니다. 정규화된 데이터베이스는 여러 테이블에 데이터를 나누어 저장하기 때문에, 하나의 트랜잭션이 여러 테이블에 영향을 미칠 수 있습니다. 이로 인해 트랜잭션을 처리하는 과정이 복잡해질 수 있으며, 다중 테이블에 걸친 트랜잭션을 처리하는 데 더 많은 자원을 필요로 할 수 있습니다. 데이터베이스 정규화는 데이터의 중복을 줄이고, 무결성을 유지하며, 저장 공간을 효율적으로 사용하는 데 매우 유용합니다. 하지만 지나친 정규화는 시스템 성능에 부정적인 영향을 미칠 수 있으며, 관리의 복잡성을 증가시킬 수 있습니다. 따라서 데이터베이스 설계 시 정규화를 어느 정도까지 적용할지에 대한 균형 잡힌 접근이 필요합니다.

profile
Start fast to fail fast

0개의 댓글