데이터 모델링 절차 |
---|
개논물 : 개념적 데이터 모델/ 논리적 데이터 모델/ 물리적 데이터 모델 |
디비젼 %
셀렉트(Select) | 프로젝트(Project) | 조인(Join) | 디비젼(Division) |
---|---|---|---|
릴레이션 R에서 조건을 만족하는 튜플반환 | 릴레이션 R에서 주어진 속성들의 값으로만 구성된 튜플 반환 | 공통 속성을 이용해 R과 S의 튜플들을 연결해 만들어진 튜플 반환 | 릴레이션 S의 모든 튜플과 관련 있는 R의 튜플 반환 |
삽입 이상, 삭제 이상, 갱신 이상
정규화된 엔터티, 속성, 관계에 대해 성능 향상과 개발 운영의 단순화를 위해 중복, 통합, 분리 등을 수행하는 데이터 모델링 기법이다.
논리 데이터 모델링의 속성은 (1)속성, (2)로 구성된다.
1: 개체 2: 관계
논리 데이터 모델릴 |
---|
개속관 : 개체/속성/관계 |
개체-관계(E-R)모델
정규화
데이터의 중복성으로 인해 릴레이션을 조작할 때 발생하는 비합리적 현상이다.
모든 결정자가 후보키가 되도록 하여 결정자 함수 종속성을 제거하는 단계이다.
()은/는 논리모델을 적용하고자 하는 기술에 맞도록 상세화해 가는 과정이다.
물리 데이터 모델링
분포도
검색 연산의 최적화를 위해 데이터베이스 내 열에 대한 정보를 구성한 데이터 구조이다.
전체 데이터의 검색없이 필요한 정보를 신속하게 조회가 가능하게 하는 데이터 구조이다.
레인지 파티셔닝 | 해시 파티셔닝 | 리스트 파티셔닝 | 컴포지트 파티셔닝 |
---|---|---|---|
연속적인 숫자나 날짜를 기준으로 하는 파티셔닝 기법, 손쉬운 관리 기법을 제공하여 관리 시간의 단축이 가능 | 파티션 키의 해시 함수 값에 의한 파티셔닝 기법, 균등한 데이터 분할이 가능하고 질의 성능이 향상 가능 | 특정 파티션에 저장될 데이터에 대한 명시적 제어가 가능한 파티셔닝 기법, 분포도가 비슷하고 데이터가 많은 SQL에서 컬럼의 조건이 많이 들어오는 경우 유용 | 법위분할에 이후 해시 함수를 적용하여 재분할 하는 파티셔닝 기법, 큰 파티션에 대한 I/O요청을 여러 파티션으로 분산 할 수 있음 |
대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 기술이다.
다수의 인원, 시스템 또는 프로그램이 사용할 목적으로 통합하여 관리되는 데이터의 집합이다.
계층형 데이터베이스 관리시스템 (HDBMS)
(1) : 키 기반 Get/Put/Delete 제공, 메모리 기반에서 성능 우선 시스템 및 빅데이터 처리 가능 DBMS, Unique한 키에 하나의 값을 가지고 있는 형태 ex) Redis, DynamoDB
(2) : 값의 데이터 타입이 문서라는 타입을 사용하는 DBMS, 문서 타입은 XML, JSON과 같이 구조화된 데이터 타입으로, 복잡한 계층 구조 표현 가능 ex) MongoDB, Couchbase
(3) : 시맨틱 웹과 온톨로지 분야에서 활용되는 그래프로 데이터를 표현하는 DBMS, 노드와 에지로 특징되는 요소 특화, 노드 간 관계를 구조화하여 저장 ex)Neo4j, AllegroGraph
1: 키-값(Key-Value) DBMS 2: 문서저장(Document Store) DBMS 3: 그래프(Graph) DBMS
데이터 무결성 | 데이터 일관성 | 데이터 회복성 | 데이터 보안성 | 데이터 효율성 |
---|---|---|---|---|
부적절한 자료가 입력되어 동일한 내용에 대하여 서로 다른 데이터가 저장되는 것을 허용하지 않는다는 성질 | 삽입, 삭제, 갱신, 생성 후에도 저장된 데이터가 변함없이 일정 | 장애가 발생하였을 시 특정 상태로 복구되어야 하는 성질 | 불법적인 노출, 변경, 손실로부터 보호되어야하는 성질 | 응답 시간, 저장 공간 활용 등이 최적화 되어 사용자, 소프트웨어, 시스템 등의 요구 조건을 만족 시켜야 하는 성질 |
업무 분석의 결과로 도출된 실제(개체)와 개체간의 관계를 도식화한 다이어그램이다.
개체 | 속성 |
---|---|
사물 또는 사건으로 정의, ERD에서 사각형으로 표시 | 개체가 가지고 있는 요소 또는 성질, ERD에서 타원형으로 표시 |
1 : HDFS(Hadoop Distributed File System), 2 : 맵 리듀스 (Map Reduce)
데이터의 양 | 데이터의 다양성 | 데이터의 속도 |
---|---|---|
페타바이트 수준의 대규모 데이터, 빅데이터 분석 규모에 관련된 특성, 디지털 정보량이 기하급수적으로 폭증하다는 것을 의미 | 정형, 비정형, 반정형의 데이터, 빅데티어 자원 유형에 관련된 특성 | 빠르게 증가하고 수집되며, 처리되는 데이터, 빅데이터 수집, 분석, 활용 속도와 관련된 특성, 가치 있는 정보 활용을 위해 실시간 분석이 중요해지는 것을 의미 |
NoSQL은 전통적인 RDBMS와 다른 DBMS를 지칭하기 위한 용어로 데이터 저장에 고정된 테이블 스키마가 필요하지 않고 조인(Join)연산을 사용할 수 없으며, 수평적으로 화장이 가능한 DBMS다.
Baseically Available | Soft-State | Eventually Consistency |
---|---|---|
언제든지 데이터는 접근할 수 있어야 한다는 속성, 분산 시스템 이기 때문에 항상 가용성 중시 | 노드의 상태는 내부에 포함된 정보에 의해 결정되는 것이 아니라 외부에서 전송된 정보를 통해 결정되는 속성, 특정 시점에서는 데이터의 일관성이 보장되지 않음 | 일정 시간이 지나면 데이터의 일관성이 유지되는 속성, 일관성을 중시하고 지향 |
Column Family Data Store
온톨로지는 실세계에 존재하는 모든 개념과 개념들의 속성, 그리고 개념 간의 관계 정보를 컴퓨터가 이해할 수 있도록 서술해 놓은 지식베이스이다.
분류 규칙 | 연관 규칙 | 연속 규칙 |
---|---|---|
과거 데이터로부터 특성을 찾아내어 분류 모형을 만들어 이를 토대로 새로운 레코드의 결과 값을 에측하는 기법, 마케팅, 고객신용 평가 모형에 활용 ex) 우수 고객의 분류모형구축으로 마케팅 활용 | 데이터 안에 존재하는 항목들 간의 종속 관계를 찾아내는 기법, 제품이나 서비스의 교차판매, 매장 진열, 사기 적발 등 다양한 분야에서 활용 ex) 넥타이 구매고객의 50% 이상이 셔츠를 구매한다는 정보 분석을 통해 매장의 상품 진열 | 연관 규칙에 시간 관련 정보가 포함된 형태의 기법, 개인별 트랜잭션 이력 데이터를 시계열적으로 분석하여 트랜잭션의 향후 발생 가능성 예측 ex) A 품목을 구매한 회원이 B 품목을 구매할 확률은 75% |
텍스트 마이닝은 대량의 텍스트 데이터로부터 패턴 또는 관계를 추출하여 의미있는 정보를 찾아내는 기법이다.
DBMS는 데이터 관리의 복잡성을 해결하는 동시에 데이터 추가, 변경, 검색, 삭제 및 백업, 복구, 보안등의 기능을 지원하는 소프트웨어이다.