💡 SQLD 자격증 시험 대비 학습한 내용을 요약정리합니다.
데이터 모델링의 이해
모델링
현실 세계의 개념들을 추상화, 단순화, 명확화 한 것.
모델링의 특징
- 추상화 : 다양한 것을 일정한 형식에 맞춰 표현.
- 단순화 : 동일한 규약으로 이해하기 쉽도록 하는 것.
- 명확화 : 애매모호함을 제거, 정확하게 현상을 기술.
모델링의 세가지 관점
- 데이터 관점 : 업무와 데이터, 데이터간의 관계성
- 프로세스 관점 : 업무가 실제로, 무엇을 하는지
- 데이터와 프로세스의 상관관점 : 처리하는 일의 방법에 따라 데이터가 어떤 영향을 받고 있는지
-> 데이터베이스를 구축하기 위한 모델링은 데이터 관점을 중심으로 진행되기 때문에 이하 ‘모델링’을 지칭하는 것은 데이터 관점을 말하는 것.
모델링의 정의
- 정보시스템을 구축하기 위한 데이터관점의 업무 분석 기법
- 데이터에 대한 약속된 표기법에 의해 표현하는 과정
- 데이터베이스를 구축하기 위한 분석/설계의 과정
데이터 모델이 제공하는 기능
가시화, 명세화, 구조화된 틀, 문서화, 다양한 관점, 상세한 표현 방법
데이터 모델링의 중요성 및 유의점
- 파급효과
: 잘못된 데이터 모델링으로 인한 변경 작업으로 전체 시스템에 큰 영향을 미칠 수 있다는 것
- 복합한 정보 요구사항의 간결한 표현
: 간결한 데이터 모델링은 사용자들이 파악하기 쉽고 빠르다.
- 데이터 품질
: 데이터 보관 기간 ↑ 가치 ↑ ( 활용을 많이 하게 되기 때문)
데이터 품질의 관한 중요성 및 유의점
- 중복 : 같은 정보를 저장하는 잘못 유의
- 비유연성 : 데이터의 작은 변화에 애플리케이션, DB에 큰 변화가 생길 가능성을 줄임(유지보수 가능성)
- 비일관성 : 데이터간의 상호 연관 관계에 대한 정확한 정의가 있어야 함. (신용 상태에 대한 갱신없이 고객의 납부 이력 정보를 갱신하는 것)
데이터 모델링의 3단계 진행
추상화 수준에 따라 개념적, 논리적, 물리적 데이터 모델링
개념적 데이터 모델링
추상화 수준이 높고 업무 중심적이며 포괄적인 수준의 모델링.
- 조직, 사용자의 요구사항 분석 -> 핵심 엔티티와 관계성을 반결 -> 엔티티 관계 다이어그램 생성.
- 시스템 기능에 대해 논의할 수 있는 기반을 형성하며 데이터 요구사항을 발견하는 것을 지원하는 단계.
논리적 데이터 모델링
업무의 구체적인 모습과 흐름에 따른 구체화된 업무 중심의 데이터 모델링.
- key, 속성, 관계 등을 정확하게 표현하며 재사용성↑
- 비즈니스 정보와 논리적인 구조와 규칙을 명확하게 표현
- 비즈니스 데이터에 존재하는 사실들을 인식, 기록함
- 신뢰성있는 데이터 구조를 얻기 위해 일관성을 확보, 중복 제거, 엔티티 속성 적절함을 고려한다.
- 식별자 확정, 정규화, m:m 관계 해소, 참조 무결성 규칙 정의 등으로 모델을 상세화 한다.
물리적 데이터 모델링
실제 DB의 저장구조에 따른 테이블 스페이스, 성능 등 물리적인 성격을 고려하여 설계.
- 물리적 스키마 : 데이터가 컴퓨터에 저장되는 방법 정의
- 테이블, 칼럼 등 물리적 저장 구조와 사용될 저장 장치, 자료를 추출하기 위해 사용될 접근 방법 사용.
데이터 독립성이 필요한 이유
- 유지 보수 비용 ↓
- 데이터 복잡도 ↓
- 데이터 중복 ↓
- 요구사항 대응 ↑
데이터 독립성 요소
외부 스키마 : 각 사용자 단계로 각 사용자가 보는 개인적 DB 스키마 (사용자 관점)
개념 스키마 : 모든 사용자 관점을 통합한 조직 전체의 DB를 기술하는 것.(통합 관점)
내부 스키마 : 물리적 장치에서 데이터가 실제적으로 저장되는 방법을 표현(물리적 저장구조)
두 영역의 데이터 독립성
논리적 독립성 : 개념 스키마 변경 -> 외부 스키마에 영향 X
물리적 독립성 : 내부 스키마 변경 -> 외부/개념 스키마 영향 X
Mapping(사상)
상호 독립적인 개념을 연결 시켜주는 다리.
외부/개념 사상(논리적 사상) : 외부적 뷰와 개념적 뷰의 상호 관련성 정의
개념/내부 사상(물리적 사상) : 개념적 뷰와 저장된 DB의 상호 관련성 정의
데이터모델링의 3가지 요소
어떤 것(Things, 엔티티), 성격(Attributes, 속성), 관계
💡 프로젝트에 참여하는 모두가 데이터 모델링을 알아야 함.
ERD(Entity Relationship Diagram)
업무분석에서 도출된 엔티티와 엔티티간의 관계를 이해하기 쉽게 도식화한 다이어그램.
데이터 흐름과 프로세스 와의 연관성을 이야기하는데 가장 중요한 표기법이자 산출물
ERD 작업순서
엔티티 그림 -> 엔티티 배치 -> 엔티티 관계 설정 -> 관계명 기술 -> 관계 참여도 기술 -> 관계 필수여부 기술
좋은 데이터 모델의 요소
1 완전성 : 필요로 하는 모든 데이터가 정의
2 중복배제 : DB 내에 동일한 사실은 한번만 기록
3 업무규칙 : 모든 규칙은 모든 사용자에게 공유
4 데이터 재사용 : 데이터 독립적으로 설계
5 의사소통 : 업무규칙들은 데이터 모델에 엔티티, 서브타입, 속성, 관계 등의 형태로 최대한 자세하게 표현
6 통합성 : 동일 데이터는 조직 전체에 한번만 정의 -> 다른 영역에서 참조, 활용.
엔티티
엔티티란 실체, 객체의 어떠한 개념을 가진 명사에 해당하며,
업무상 관리가 필요한 관심사, 저장 되기 위한 어떤 것을 말한다.
인스턴스의 집합으로서 그 집합에 속하는 개체들의 특성을 설명할 수 있는 속성(attribute)와 그들이 행하는 행위(Operation or Method)의 집합으로 정의할 수 있다.
엔티티는 자신으로부터 생성된 인스턴스들의 전체가 공유할 수 있는 공통 속성과 인스턴스 일부만 해당하는 개별 속성을 가진다.
엔티티의 특징
- 반드시 해당 업무에 필요하며, 관리하고자 하는 정보
- 유일한 식별자에 의해 식별이 가능해야 함
- 영속적으로 존재하는 인스턴스의 집합(2개 이상을 가짐)
- 업무 프로세스에 의해 이용되어야 함
- 반드시 속성을 가짐(관계 엔티티의 경우에는 주 식별자만 가져도 인정한다)
- 다른 엔티티와 최소 한 개 이상의 관계를 가진다( 통계성, 코드성, 시스템 처리 시 내부 필요에 의한 엔티티 도출은 예외)
엔티티의 분류
엔티티는 실체 유형, 발생되는 시점에 의해 분류
1. 유무형의 따른 분류
- 유형 : 물리적인 형태, 엔티티를 구분하기 용이(사원, 회사)
- 개념 : 개념적 정보 ( 조직, 보험 상품)
- 사건 : 업무를 수행함에 따라 발생되는 것(청구, 미납)
- 발생 시점에 따른 분류
- 기본 : 업무에 원래 존재하는 정보, 관계에 의해 생성되지 않고 독립적으로 생성, 타 엔티티의 부모역할을 하며 고유한 주식별자를 가진다. (사원, 회사)
- 중심 : 기본 엔티티로부터 발생, 업무의 중심. 다른 엔티티와의 관계를 통해 많은 행위 엔티티를 생성. (사고, 주문)
- 행위 : 두 개 이상의 부모엔티티로부터 발생, 자주 내용이 바뀌거나 데이터량이 증가.(주문 목록)
엔티티의 명명
- 업무에서 사용하는 용어일 것
- 약어를 사용하지 않을 것
- 단수명사를 사용할 것
- 고유성을 가질 것
- 생성 의미대로 이름을 부여할 것
속성
업무에서 필요로 하는 인스턴스로 관리하고자 하는 의미상 더 이상 분리되지 않는 최소의 데이터 단위.
인스턴들의 성격을 구체적으로 나타내는 정보.
- 한 개의 엔티티는 두 개 이상의 인스턴스 집합이어야 함.
- 한 개의 엔티티는 두 개 이상의 속성을 갖는다.
- 한 개의 속성은 한 개의 속성값을 갖는다.
속성의 특징
- 반드시 해당 업무에 필요하고 관리하고자 하는 정보
- 정규화 이론에 근간하여 정해진 주식별자의 함수적 종속성을 가져야 한다.
- 하나의 속성에는 한 개의 값만을 가진다. 하나의 속성에 여러 개의 값이 있는 다중 값일 경우 별도의 엔티티를 이용하여 분리한다.
속성의 분류
- 업무 분석을 통해 정의(일반적) : 기본 속성
- 설계하면서 도출해내는 속성 : 설계 속성 (식별번호)
- 다른 속성으로부터 계산이나 변형되어 생성 : 파생 속성
파생 속성
- 데이터 정합성을 유지하기 위해 유의해야 할 점이 많으며 가급적 파생속성을 적게 정의하는 것이 좋다.
- 업무로직이 속성 내부로 숨지 않도록 하는것이 좋다.
- 파생 속성의 원인이 되는 속성을 이용할 때에는 파생 속성도 함께 고려해야 한다.
엔티티 구성방식에 따른 분류
- PK(Primary Key) : 엔티티 식별 속성
- FK(Foreign Key) : 다른 엔티티와의 관계에 포함된 속성
- 일반 속성
속성은 세부 의미를 쪼갤 수 있느냐 없느냐에 따라 복합, 단순 속성으로도 구분할 수 있다.
도메인
각 속성이 가질 수 있는 값의 범위. 데이터 타입, 크기, 제약사항을 지정하는 것.
속성의 명명
- 해당 업무에서 사용하는 이름을 부여
- 서술식 속성명은 사용하지 않는다.
- 약어 사용은 가급적 제한한다
- 전체 데이터모델에서 유일성 확보
관계
상호 연관성. 엔티티의 인스턴스 사이의 논리적인 연관성으로서 존재의 형태, 행위로서 서로에게 연관성이 부여된상태. 관계 페어링의 집합을 논리적으로 표현한 것.
관계의 페어링
- 페어링 : 엔티티 안에 인스턴스가 개별적으로 관계를 가지는 것. 페어링의 집합을 관계로 표현한다.
- 관계 페어링 : 인스턴스들은 자신이 관련된 인스턴스들과 관계의 어커런스로 참여하는 형태.
- 관계의 표현 : 이항 관계, 삼항 관계, n항 관계
관계의 분류
어떤 목적(존재, 행위)으로 연결되었는지에 따라 관계를 분류.
- 존재에 의한 관계 : 사원은 부서에 항상 속해있다.
- 행위에 의한 관계 : 주문은 고객이 주문을 할 때 발생.
UML(Unified Modeling Language), 클래스 다이어그램의 관계 중 연관관계(Association)와 의존관계(Dependency)가 있다.
- 연관관계 : 항상 이용하는 관계, 존재적 관계에 해당.
(실선, 멤버변수로 선언하여 사용)
- 의존관계 : 상대방 클래스의 행위에 의한 관계에 해당.
(점선, 행위(Method)의 파라미터)
ERD에서는 해당 관계를 구분하지 않고 표현하지만 UML의 클래스 다이어그램에서는 이것을 구분하여 표현한다.
관계의 표기법
- 관계명 : 관계의 이름, 관계에 참여하는 형태 지칭.
- 관계차수 : 1:1, 1:m, m:n
- 관계선택사양 : 필수관계, 선택관계
관계 체크사항
- 두 개의 엔티티 사이에 관심있는 연관규칙이 존재?
- 두 개의 엔티티 사이에 정보의 조합이 발생?
- 업무기술서, 장표에 관계연결에 대한 규칙 서술?
- 업무기술서, 장표에 관계연결을 가능하게 하는 동사 있?
식별자
엔티티의 인스턴스들을 각각 구분할 수 있는 논리적인 이름, 구분자이다.
💡식별자? key?
식별자 : 업무적으로 구분이 되는 정보
-> 논리적 데이터 모델링 단계에서 사용
key : 데이터베이스 테이블에 접근하기 위한 매개체
-> 물리 데이터 모델링 단계에서 사용
식별자의 특징-> 주식별자 특징
- 유일성 : 주식별자에 의해 엔티티 내에 모든 인스턴스들을 유일하게 구분
- 최소성 : 주식별자를 구성하는 속성의 수는 유일성을 만족하는 최소의 수가 되어야 함.
- 불변성 : 주식별자가 한 번 특정 엔티티에 지정되면 그 식별자의 값은 변하지 않아야 함.
- 존재성 : 주식별자가 지정되면 반드시 데이터값이 존재(Null X)
대체식별자의 특징은 주식별자와 일치하나, 외부식별자의 경우에는 주식별자의 특징과 일치하지 않으며 참조무결성 제약조건에 따른 특징을 가진다.
식별자 종류
엔티티 내에 대표성에 따라
- 주 : 구분자, 타 엔티티와 참조 관계를 연결할 수 있는 식별자
- 보조 : 구분자이나 대표성을 가지지 못해 참조 관계 연결을 하지 못함.
엔티티 내에 스스로 생성 여부
- 내부 : 엔티티 내부에서 스스로 만들어지는 식별자
- 외부 : 타 엔티티와의 관계를 통해 타 엔티티로부터 받아오는 식별자
단일 속성으로 식별되는가
- 단일 : 하나의 속성으로 구성된 식별자
- 복합 : 둘 이상의 속성으로 구성된 식별자
의미 있는 식별자 속성을 대체
- 본질 : 업무에 의해 만들어지는 식별자
- 인조 : 업무적으로 만들어지지 않지만 원조식별자가 복잡한 구성을 가지고 있기 때문에 인위적으로 만든 식별자
주식별자 도출 기준
- 해당 업무에서 자주 이용되는 속성을 주식별자로 지정
- 명칭, 내역 등과 같이 이름으로 기술되는 것들은 지정X
- 복합으로 주식별자로 구성할 경우 너무 많은 속성 X
식별자 관계
- 주식별자 : 자식의 주식별자로 부모의 주식별자 상속
- 부모로부터 받은 식별자를 자식엔터티의 주식별자 로 이용하는 경우
강한 연결관계 표현, 실선 표기
- 비식별자 : 부모 속성을 자식의 일반 속성으로 사용
- 부모 없는 자식이 생성될 수 있는 경우
- 부모와 자식의 생명주기가 다른 경우
- 여러개의 엔터티가 하나의 엔터티로 통합되어 표현 되었는데 각각의 엔터티가 별도의 관계를 가진 경우
- 자식엔터티에 별도의 주식별자를 생성하는 것이 더 유리한 경우
- SQL 문장이 길어져 복잡성 증가되는 것 방지
약한 연결관계 표현, 점선 표기