정규화의 기본 목표는 테이블 간에 중복된 데이터를 허용하지 않는다는 것
중복된 데이터를 허용하지 않음으로써 무결성(Integrity)를 유지할 수 있으며, DB의 저장 용량도 줄일수 있다.
데이터 중복은 실제 데이터의 동일한 복사본이나 부분적인 복사본을 말한다
이런 중복성은 데이터를 복구할 때에 수월할 수도 있겠지만 데이터베이스 내에선 몇가지 문제점들을 대체로 지닌다
데이터 정규화는 이런 데이터 무결성을 강화하기 위한 목적도 지닌다
데이터 무결성은 데이터의 수명 주기 동안 정확성과 일관성을 유지하는 것을 말한다
즉, 입력된 데이터가 오염되지 않고 입력된 그대로 데이터를 사용할 수 있다는 뜻
데이터 이상 현상 같은 경우엔 데이터에서 기대한 것과 다른 이상 현상을 말한다
갱신 이상은 동일한 데이터가 여러 행(레코드)에 걸쳐 있을 때에 데이터를 갱신해야 하는지에 대한 논리적 일관성이 없어 발생하게된다.
다음과 같은 테이블이 존재하고 두 개의 레코드가 동일한 사람일 때엔 (519번) 갱신을 하게 되는 경우 어떤 데이터를 해야하는지에 대한 문제가 발생한다
Employee ID | Employee Address | Skill |
---|---|---|
426 | 87 Sycamore Grove | Typing |
426 | 87 Sycamore Grove | Shorthand |
519 | Public Speaking | |
519 | Carpentry |
삽입 이상은 데이터 삽입을 못하는 경우를 가르킨다
새로운 직원이 들어 왔을때 아직 가르칠 수업이 정해지지않은 경우 데이터에 추가되지 못한다
수업을 NULL과 같은 값으로 지정해야 하지 않은 이상 담당 수업이 있어야 추가될 수 있는 이상 현상이 발생
삭제 이상과 같은 경우엔 데이터의 특정 부분을 지울 때, 의도치 않게 다른 부분들도 함께 지워지는 현상이다
수업 관련 데이터만 지우려했지만 레코드 전체가 사라져 의도치 않게 해당 직원의 다른 데이터들도 삭제되는 현상
테이블의 컬럼이 원자값(Atomic Value, 하나의 값)을 갖고록 테이블을 분해하는 것
Table coustomerhabby
이름 | 취미 |
---|---|
김연아 | 인터넷 |
손흥민 | 영화,음악 |
박세리 | 음악,쇼핑 |
김민석 | 음악 |
한효주 | 게임 |
위 테이블은 손흥민과 박세리의 여러 가지의 취미를 가지고 있기 때문에 제 1 정규형을 만족하지 못하고있다.
이름 | 취미 |
---|---|
김연아 | 인터넷 |
손흥민 | 영화 |
손흥민 | 음악 |
박세리 | 음악 |
박세리 | 쇼핑 |
김민석 | 음악 |
한효주 | 게임 |
첫번째 테이블을 수정해서 제 1 정규형에 만족하게 바꾸었다.
제 1 정규화를 진행한 테이블에 대해 완전 함수 종속을 만족하도록 테이블을 분해하는 것
완전 함수 종속이란? 기본키의 부분집합이 결정자가 되어선 안된다는 것을 말한다
Table 수강강좌
학생번호 | 강좌이름 | 강의실 | 성적 |
---|---|---|---|
501 | 데이터베이스 | 공학관 110 | 3.5 |
401 | 데이터베이스 | 공학관 110 | 4.0 |
402 | 스포츠경영학 | 체육관 103 | 3.5 |
502 | 자료구조 | 공학관 111 | 4.0 |
501 | 자료구조 | 공학관 111 | 3.5 |
위 테이블에서 기본 키는 (학생번호,강좌이름)으로 복합키이다.
그리고 (학생번호,강좌이름)인 기본키는 성적을 결정하고 있다.
(학생번호,강좌이름)-->(성적)
여기서 강의실이라는 컬럼은 기본키의 부분집합인 강좌이름에 의해 결정될 수 있다.
(강좌이름) --> (강의실)
학생번호 | 강좌이름 | 성적 |
---|---|---|
501 | 데이터베이스 | 3.5 |
401 | 데이터베이스 | 4.0 |
402 | 스포츠경영학 | 3.5 |
502 | 자료구조 | 4.0 |
501 | 자료구조 | 3.5 |
강좌이름 | 강의실 |
---|---|
데이터베이스 | 공학관 110 |
스포츠경영학 | 체육관 103 |
자료구조 | 공학관 111 |
(학생번호,강좌이름) --> (성적)
(강좌이름) --> (강의실)
즉, 기본키 (학생번호,강좌이름)의 부분키인 강좌이름이 결정자이기 때문에 위와 같이 기존의 테이블에서 강의실을 분해하여 별도의 테이블로 관리하여 제 2 정규형을 만족시킬수 있다.
제 2 정규화를 진행한 테이블에 대해 이행적 종속을 없애도록 테이블을 분해하는 것
이행적 종속이란 ? A -> B, B -> C가 성립할때 A -> C가 성립되는 것을 말한다
Table 계절학기
학생번호 | 강좌이름 | 수강료 |
---|---|---|
501 | 데이터베이스 | 20000 |
401 | 데이터베이스 | 20000 |
402 | 스포츠경영학 | 15000 |
502 | 자료구조 | 25000 |
(학생번호)-->(강좌이름)-->(수강료)
(학생번호)-->(수강료)
기존 테이블에서 학생 번호는 강좌 이름을 결정하고 있고, 강좌 이름은 수강료를 결정하고 있다.
그렇기 때문에 이를 (학생번호,강좌이름) 테이블과 (강좌이름,수강료) 테이블로 분해해야 한다.
이행적 종속을 제거하는 이유는 비교적 간단하다고한다.
예 ) 501번 학생이 수강하는 강좌가 스포츠경영학으로 변경되었다고 하자.
애행적 종속이 존재한다면 501번의 학생은 스포츠경영학이라는 수업을 20000원이라는 수강료로 듣게 된다.
물론 강좌 이름에 맞게 수강료를 다시 변경할 수 있지만, 이런 번거로움을 해결하기 위해 제 3 정규화를 하는 것이다.
즉, 학생 번호를 통해 강좌 이름을 참조하고, 강좌 이름으로 수강료를 참조하도록 테이블을 분해해야 한다
학생번호 | 강좌이름 |
---|---|
501 | 데이터베이스 |
401 | 데이터베이스 |
402 | 스포츠경영학 |
502 | 자료구조 |
(학생번호) --> (강좌이름)
강좌이름 | 수강료 |
---|---|
데이터베이스 | 20000 |
스포츠경영학 | 15000 |
자료구조 | 25000 |
(강좌이름) --> (수강료)
제 3 정규화를 진행한 테이블에 대해 모든 결정자가 후보키가 되도록 테이블을 분해하는
Table 특강수강
학생번호 | 특강이름 | 교수 |
---|---|---|
501 | 소셜네크워크 | 김교수 |
401 | 소셜네크워크 | 김교수 |
402 | 인간과 동물 | 이교수 |
502 | 창업전략 | 박교수 |
501 | 창업전략 | 홍교수 |
(학생번호) --> 교수 | (교수) --> (특강이름)
특강수강 테이블에서 기본키는 (학생번호,특강이름)이다. 그리고 기본키 (학생번호,특강이름)는 교수를 결정하고 있다.
또한 여기서 교수는 특강 이름을 결정하고 있다.
그런데 문제는 교수가 특강이름을 결정하는 결정자이지만, 후보키가 아니라는 점이다
그렇기 때문에 BCNF 정규화를 만족시키기 위해선 테이블을 분해해야한다
학생번호 | 교수 |
---|---|
501 | 김교수 |
401 | 김교수 |
402 | 이교수 |
502 | 박교수 |
501 | 홍교수 |
(학생번호) (교수)
특강이름 | 교수 |
---|---|
소셜네크워크 | 김교수 |
소셜네크워크 | 김교수 |
인간과 동물 | 이교수 |
창업전략 | 박교수 |
창업전략 | 홍교수 |
(특강이름) <-- (교수)