cf> 데이터베이스가 없던 시절에는 응용 프로그램마다 필요한 데이터를 별도의 파일 시스템(File System)으로 관리하였다.
=> 데이터가 해당 프로그램에서만 사용 가능하다는 '종속성' 문제
=> 일관성, 보안성, 경제성, 무결성 등 '중복성' 문제
- 일관성 : 중복된 데이터 간 내용이 일치하지 않는 상황
- 보안성 : 중복되어 있는 모든 데이터에 동등한 보안 수준 유지의 어려움
- 경제성 : 저장공간의 낭비, 동일한 데이터의 반복 작업으로 인한 비용 증가
- 무결성 : 제어의 분산으로 인한 데이터의 정확성 유지가 어려움
스키마(Schema)
= 데이터 구조체
- 데이터베이스의 구조와 제약 조건에 관한 전반적인 명세를 기술
- 데이터베이스를 구성하는 데이터 개체(Entity), 속성(Attribute), 관계(Relationship) 및 데이터 조작 시 데이터 값들이 갖는 제약 조건 등에 관해 전반적으로 정의
SQL(Structured Query Language)
= 데이터베이스를 구축하고 활용하기 위하여 사용하는 언어
(보통 관계형 데이터베이스를 조작하기 위한 표준 언어)
- DDL(Data Definition Language, 데이터 정의 언어) : 관계 생성, 관게 삭제, 관계 변경 등에 사용
- DML(Data Manipulation Language, 데이터 조작 언어) : 검색, 삽입, 삭제, 갱신 등에 사용
- 개체(Entity)
: 자료 집합 또는 구체적이고 의미 있는 실체
: 데이터베이스에 표현하려는 것으로, 사람이 생각하는 개념이나 정보 단위 같은 현실 세계의 대상체
: 유형 / 무형의 정보로서 서로 연관된 몇 개의 속성으로 구성됨- 속성(Attribute)
: 개체의 구성요소
(특정 개체를 다른 개체들과 구분하기 위한 고유한 특성 또는 성질)
: 데이터의 가장 작은 논리적 단위, 파일 구조의 데이터 항목 또는 필드에 해당- 관계(Relationship)
: 개체와 개체 사이의 관계
: 개념적 모델링 과정에서 얻은 개념적 구조를 컴퓨터가 이해하고 처리할 수 있는 컴퓨터 세계의 환경에 맞도록 변환하는 과정
; 데이터 도매상
기업 내에 있는 각종 데이터를 적절히 뽑아내고 조합해 다양한 사업 목적에 맞는 정보 또는 지식으로 바꾸어 주는 기술=> 주제 중심적, 통합적 & 시간성을 가지는 비휘발성 자료의 집합
기존의 데이터베이스처럼 거래처리를 위한 데이터가 아닌 의사결정 지원을 위한 데이터 베이스
데이터 웨어하우스 구성요소
+) DW에는 단순히 자료가 저장되어 있을 뿐만 아니라, 이러한 자료를 추출, 저장, 분류하는 일련의 과정을 포함하고 있음
- 메타 데이터 = 데이터의 데이터
: 데이터 웨어하우스의 생성과 유지보수에 관련된 정보를 담고 있는 자료- 데이터 마트
: 데이터 웨어하우스에 저장된 자료 중에서 일정한 주제나 특정 부서의 자료를 별도의 장소에 중복하여 사용자들이 사용하도록 하게 한 것
1. 주제 중심적
2. 통합적
3. 비휘발성
기존> 추가/삭제/변경과 같은 갱신 작업이 레코드 단위로 지속적으로 발생함
DW> 데이터 로드와 활용만 존재함 (기존 운영 시스템에서와 같은 갱신은 발생하지 않음)
3. 시간성
기존> 매 순간마다 발생되는 사건들을 즉시 처리하도록 되어 있어 데이터를 접근하는 순간에만 의미가 있음
DW> "시간이라는 관점"을 갖음. 데이터 포인트가 시간 상의 한 포인트와 연결되어 있어 데이터 포인트들을 시간 축에 따라 비교, 분석 가능함
; 데이터 소매상
- Drill-down
: 계층 구조상 가장 상위 수준에 해당하는 데이터부터 점점 세부 수준으로 들어가며 데이터를 분석하는 것
ex) 년도별 분석 -> 반기별 분석 -> 분기별 분석 -> 월별 분석
- Drill-up
: 상세 수준의 데이터로부터 차츰 분석의 범위를 넓혀가면서 상위 단계의 데이터를 분석해 가는 것
ex) 월별 분석 -> 분기별 분석 -> 반기별 분석 -> 년도별 분석
- Pivot
= 다양한 뷰를 만들기 위해 축과 축을 바꾸는 작업
: 임의의 다차원 뷰(view)를 만들고 검토 및 분석한 후, 차원들을 다양하게 변경하여 새로운 뷰를 만들어 데이터를 분석하는 것