정보처리기사 실기 - 데이터 입출력 구현

Minseol·2023년 2월 27일
0

정보처리기사

목록 보기
4/17

데이터 전환

  • 운영중인 기존 정보 시스템에 축적되어 있는 데이터를 추출하여 새로 개발할 정보 시스템에서 운영할 수 있도록 변환한 후, 적재하는 일련의 과정
  • ETL, 즉 추출(Extraction), 변환(Transformation), 적재(Load) 과정이라고 한다.
  • 데이터 이행(Data Migration) 또는 데이터 이관이라고도 한다.

데이터 전환 계획서

  • 데이터 전환이 필요한 대상을 분석하여 데이터 전환 작업에 필요한 모든 계획을 기록하는 문서

데이터 검증

  • 원천 시스템의 데이터를 목적 시스템의 데이터로 전환하는 과정이 정상적으로 수행되었는지 여부를 확인하는 과정

검증 방법에 따른 분류

  • 로그 검증: 데이터 전환 과정에서 작성하는 로그를 검증
  • 기본 항목 검증: 로그 검증 외에 별도로 요청된 검증 항목에 대해 검증
  • 응용 프로그램 검증: 응용 프로그램을 통한 데이터 전환의 정확성을 검증
  • 응용 데이터 검증: 사전에 정의된 업무 규칙을 기준으로 데이터 전환의 정합성을 검증
  • 값 검증: 숫자 항목의 합계 검증, 코드 데이터의 범위 검증, 속성 변경에 따른 값 검증을 수행

검증 단계에 따른 분류

추출 -> 전환 -> DB 적재 -> DB 적재 후 -> 전환 완료 후

  • 추출, 전환, DB 적재: 로그 검증
  • DB 적재 후: 기본 항목 검증
  • 전환 완료 후: 응용 프로그램 검증, 응용 데이터 검증

오류 데이터 측정 및 정제

  • 고품질의 데이터를 운영 및 관리하기 위해 수행
  • 데이터 분석 -> 오류 데이터 측정 -> 오류 데이터 정제 순으로 진행한다.

오류 상태

  • Open
  • Assigned
  • Fixed
  • Closed
  • Deferred
  • Clarified/Classified: 보고된 오류를 관련자들이 확인했을 때 오류가 아니라고 확인된 상태

데이터 정제요청서

  • 데이터 정제와 관련된 전반적인 내용을 문서로 작성한 것

데이터 정제보고서

  • 정제된 원천 데이터가 정상적으로 정제되었는지를 확인한 결과를 문서로 작성한 것

데이터베이스 개요

데이터저장소

  • 데이터를 논리적인 구조로 조직화하거나, 물리적인 공간에 구축한 것을 의미

데이터베이스(Database)

  • 여러 사람에 의해 공동으로 사용될 데이터를 중복을 배제하여 통합하고, 쉽게 접근하여 처리할 수 있도록 저장장치에 저장하여 항상 사용할 수 있도록 운영하는 운영 데이터

데이터베이스는 다음과 같이 구분하여 정의할 수 있다.

  • 통합된 데이터(Integrated Data): 자료의 중복을 배제한 데이터의 모임
  • 저장된 데이터(Stored Data): 컴퓨터가 접근할 수 있는 저장 매체에 저장된 자료
  • 운영 데이터(Operational Data): 조직의 고유한 업무를 수행하는 데 반드시 필요한 자료
  • 공용 데이터(Shared Data): 여러 응용 시스템들이 공동으로 소유하고 유지하는 자료

DBMS(DataBase Management System; 데이터베이스 관리 시스템)

  • 사용자의 요구에 따라 정보를 생성해주고, 데이터베이스를 관리해주는 소프트웨어
  • 기존의 파일 시스템이 갖는 데이터의 종속성과 중복성의 문제를 해결하기 위해 제안된 시스템

DBMS의 필수 기능 3가지

  • 정의(Definition) 기능
  • 조작(Manipulation) 기능
  • 제어(Control) 기능

데이터의 독립성

  • 종속성에 대비되는 말로 논리적 독립성과 물리적 독립성이 있다.
  • 논리적 독립성: 응용 프로그램과 데이터 베이스를 독립시킴으로써, 데이터의 논리적 구조를 변경시키더라도 응용 프로그램은 영향을 받지 않음
  • 물리적 독립성: 응용 프로그램과 보조기억장치 같은 물리적 장치를 독립시킴으로써, 디스크를 추가/변경하더라도 응용 프로그램은 영향을 받지 않음

스키마

  • 데이터베이스의 구조와 제약조건에 관한 전반적인 명세를 기술한 것

스키마의 종류

  • 외부 스키마: 사용자나 응용 프로그래머가 각 개인의 입장에서 필요로 하는 데이터베이스의 논리적 구조를 정의한 것
  • 개념 스키마: 데이터베이스의 전체적인 논리적 구조로, 모든 응용 프로그램이나 사용자들이 필요로 하는 데이터를 종합한 조직 전체의 데이터베이스로 하나만 존재
  • 내부 스키마: 물리적 저장장치의 입장에서 본 데이터베이스 구조로, 실제로 저장될 레코드의 형식, 저장 데이터 항목의 표현 방법, 내부 레코드의 물리적 순서 등을 나타냄

데이터베이스 설계

  • 사용자의 요구를 분석하여 그것들을 컴퓨터에 저장할 수 있는 데이터베이스의 구조에 맞게 변형한 후 DBMS로 데이터베이스를 구현하여 일반 사용자들이 사용하게 하는 것

데이터베이스 설계 시 고려사항

  • 무결성: 삽입, 삭제, 갱신 등의 연산 후에도 데이터베이스에 저장된 데이터가 정해진 제약 조건을 항상 만족해야 함
  • 일관성: 데이터베이스에 저장된 데이터들 사이나, 특정 질의에 대한 응답이 처음부터 끝까지 변함없이 일정해야 함
  • 회복: 시스템에 장애가 발생했을 때 장애 발생 직전의 상태로 복구할 수 있어야 함
  • 보안: 불법적인 데이터의 노출 또는 변경이나 손실로부터 보호할 수 있어야 함
  • 효율성: 응답시간의 단축, 시스템의 생산성, 저장 공간의 최적화 등이 가능해야 함
  • 데이터베이스 확장: 데이터베이스 운영에 영향을 주지 않으면서 지속적으로 데이터를 추가할 수 있어야 함

데이터베이스 설계 순서

  1. 요구 조건 분석
  2. 개념적 설계
  3. 논리적 설계
  4. 물리적 설계
  5. 구현

요구 조건 분석

  • 데이터베이스를 사용할 사람들로부터 필요한 용도를 파악하는 것
  • 수집된 정보를 바탕으로 요구 조건 명세를 작성

개념적 설계(정보 모델링, 개념화)

  • 현실 세계에 대한 인식을 추상적 개념으로 표현하는 과정
  • 개념 스키마 모델링과 트랜잭션 모델링을 병행 수행
  • 요구 분석에서 나온 결과인 요구 조건 명세를 DBMS에 독립적인 E-R 다이어그램으로 작성
  • DBMS에 독립적인 개념 스키마를 설계

논리적 설계(데이터 모델링)

  • 현실 세계에서 발생할 수 있는 자료를 특정 DBMS가 지원하는 논리적 자료 구조로 변환(mapping)시키는 과정
  • 개념 세계의 데이터를 필드로 기술된 데이터 타입과 이 데이터 타입들 간의 관계로 표현되는 논리적 구조의 데이터로 모델화
  • 개념 스키마를 평가 및 정제하고 DBMS에 따라 서로 다른 논리적 스키마를 설계하는 단계
  • 트랜잭션의 인터페이스를 설계

물리적 설계(데이터 구조화)

  • 논리적 구조로 표현된 데이터를 물리적 구조의 데이터로 변환하는 과정
  • 다양한 데이터베이스 응용에 대해 처리 성능을 얻기 위해 데이터베이스 파일의 저장 구조 및 액세스 경로를 결정

데이터베이스 구현

  • 논리적 설계와 물리적 설계에서 도출된 데이터베이스 스키마를 파일로 생성하는 과정
  • 응용 프로그램을 위한 트랜잭션을 작성
  • 데이터베이스 접근을 위한 응용 프로그램을 작성

데이터 모델

  • 현실 세계의 정보들을 컴퓨터에 표현하기 위해서 단순화, 추상화하여 체계적으로 표현한 개념적 모형

  • 데이터 모델 구성 요소: 개체, 속성, 관계

  • 데이터 모델 종류: 개념적 데이터 모델, 논리적 데이터 모델, 물리적 데이터 모델

  • 데이터 모델에 표시할 요소: 구조, 연산, 제약 조건

개념적 데이터 모델

  • 현실 세계에 대한 인간의 이해를 돕기 위해 현실 세계에 대한 인식을 추상적 개념으로 표현하는 과정
  • 대표적으로 E-R 모델이 있다.

논리적 데이터 모델

  • 개념적 모델링 과정에서 얻은 개념적 구조를 컴퓨터 세계의 환경에 맞도록 변환하는 과정

데이터 모델에 표시할 요소

구조(Structure)

  • 논리적으로 표현된 개체 타입들 간의 관계로서 데이터 구조 및 정적 성질 표현

연산(Operation)

  • 데이터베이스에 저장된 실제 데이터를 처리하는 작업에 대한 명세로서 데이터베이스를 조작하는 기본 도구

제약 조건(Constraint)

  • 데이터베이스에 저장될 수 있는 실제 데이터의 논리적인 제약 조건

데이터 모델의 구성 요소

개체(Entity)

  • 데이터베이스에서 표현하려는 것으로, 사람이 생각하는 개념이나 정보 단위 같은 현실 세계의 대상체
  • 독립적으로 존재하거나 그 자체로서도 구별이 가능하며, 유일한 식별자(Unique Identifier)에 의해 식별
  • 다른 개체와 하나 이상의 관계(Relationship)가 있다.

속성(Attribute)

  • 데이터베이스를 구성하는 가장 작은 논리적 단위
  • 속성은 개체를 구성하는 항목으로 개체의 특성을 기술

속성의 특성에 따른 분류

  • 기본 속성(Basic Attribute): 업무 분석을 통해 정의한 속성
  • 설계 속성(Designed Attribute): 원래 업무상 존재하지 않고 설계 과정에서 도출해내는 속성
  • 파생 속성(Derived Attribute): 다른 속성으로부터 계산이나 변형 등의 영향을 받아 발생하는 속성

속성의 개체 구성 방식에 따른 분류

  • 기본키 속성(Primary Key Attribute): 개체를 유일하게 식별할 수 있는 속성
  • 외래키 속성(Foreign Key Attribute): 다른 개체와의 관계에서 포함된 속성
  • 일반 속성: 개체에 포함되어 있지 않고 기본키, 외래키에 포함되지 않은 속성

관계(Relationship)

  • 개체와 개체 사이의 논리적인 연결을 의미

관계의 형태

  • 1:1
  • 1:N
  • N:M

관계의 종류

  • 종속 관계(Dependent Relationship): 두 개체 사이의 주종 관계를 표현
  • 중복 관계(Redundant Relationship): 두 개체 사이의 2번 이상의 종속 관계가 발생
  • 재귀 관계(Recursive Relationship): 개체가 자기 자신과 관계를 갖는 것
  • 배타 관계(Exclusive Relationship): 개체의 속성이나 구분자를 기준으로 개체의 특성을 분할하는 관계

식별자(Identifier)

  • 하나의 개체 내에서 각각의 인스턴스를 유일(Unique)하게 구분할 수 있는 구분자
  • 모든 개체는 한 개 이상의 식별자를 반드시 가져야 한다.

식별자의 분류

대표성 여부

  • 주 식별자
  • 보조 식별자

스스로 생성 여부

  • 내부 식별자
  • 외부 식별자

단일 속성 여부

  • 단일 식별자
  • 복합 식별자

대체 여부

  • 원조 식별자
  • 대리 식별자

후보 식별자

  • 개체에서 각 인스턴스를 유일하게 식별할 수 있는 속성 또는 속성 집합을 의미

주 식별자의 특징

  • 유일성: 개체 내의 모든 인스턴스들은 주 식별자에 의해 유일하게 구분
  • 최소성: 유일성을 만족시키기에 필요한 최소한의 속성으로만 구성
  • 불변성: 주 식별자가 특정 개체에 한 번 지정되면 그 식별자는 변하지 않아야 함
  • 존재성: 주 식별자가 지정되면 식별자 속성에 반드시 데이터 값이 존재해야 함

E-R(Entity-Relationship) 모델

  • 개체 타입과 이들 간의 관계 타입을 이용해 현실 세계를 개념적으로 표현한다.
  • 데이터를 개체, 관계, 속성으로 묘사

E-R 다이어그램

  • 사각형: 개체 타입
  • 마름모: 관계 타입
  • 타원: 속성
  • 이중 타원: 다중값 속성(복합 속성)
  • 밑줄 타원: 기본키 속성
  • 복수 타원: 복합 속성
  • 관계: 개체 간 관계에 대한 대응수를 선 위에 기술
  • 선, 링크: 개체 타입과 속성을 연결

관계형 데이터베이스

  • 2차원적인 표(Table)를 이용해서 데이터 상호 관계를 정의하는 데이터베이스

  • 장점: 간결하고 보기 편리하며, 다른 데이터베이스로의 변환이 용이

  • 단점: 성능이 다소 떨어짐

관계형 데이터베이스의 릴레이션 구조

릴레이션(Relation)은 데이터들을 표(Table)의 형태로 표현한 것으로, 구조를 나타내는 릴레이션 스키마와 실제 값들인 릴레이션 인스턴스로 구성

튜플(Tuple)

  • 릴레이션을 구성하는 각각의 행
  • 속성의 모임으로 구성된다.

속성(Attribute)

  • 데이터베이스를 구성하는 가장 작은 논리적 단위
  • 개체에 속성을 기술한다.

도메인(Domain)

  • 하나의 애트리뷰트가 취할 수 있는 같은 타입의 원자(Atomic)값들의 집합

릴레이션의 특징

  • 한 릴레이션에는 똑같은 튜플이 포함될 수 없으므로 릴레이션에 포함된 튜플들은 모두 상이하다.
  • 릴레이션을 구성하는 튜플을 유일하게 식별하기 위해 속성들의 부분집합을 키(key)로 설정한다.
  • 속성의 값은 논리적으로 더 이상 쪼갤 수 없는 원자값만을 저장한다.

관계형 데이터 모델(Relational Data Model)

  • 2차원적인 표(Table)를 이용해서 데이터 상호 관계를 정의하는 DB 구조를 말한다.
  • 기본키(Primary Key)와 이를 참조하는 외래키(Foreign Key)로 데이터 간의 관계를 표현한다.

관계형 데이터베이스의 제약 조건 - 키(Key)

  • 데이터베이스에서 조건에 만족하는 튜플을 찾거나 순서대로 정렬할 때 기준이 되는 속성을 말한다.

키의 종류

  • 후보키(Candiate Key)
  • 기본키(Primary Key)
  • 대체키(Alternate Key)
  • 슈퍼키(Super Key)
  • 외래키(Foreign Key)

후보키(Candidate Key)

  • 릴레이션을 구성하는 속성들 중에서 튜플을 유일하게 식별하기 위해 사용되는 속성들의 부분집합
  • 후보키는 유일성(Unique)과 최소성(Minimality)을 모두 만족시켜야 한다.

유일성(Unique): 하나의 키 값으로 하나의 튜플만을 유일하게 식별할 수 있어야 함
최소성(Minimality): 키를 구성하는 속성 하나를 제거하면 유일하게 식별할 수 없도록 꼭 필요한 최소의 속성으로 구성되어야 한다.

기본키(Primary Key)

  • 후보키 중에서 특별히 선정된 주키(Main Key)이다.
  • 한 릴레이션에서 특정 튜플을 유일하게 구별할 수 있는 속성이다.

대체키(Alternate Key)

  • 후보키가 둘 이상일 때 기본키를 제외한 나머지 후보키를 의미

슈퍼키(Super Key)

  • 한 릴레이션 내에 있는 속성들의 집합으로 구성된 키
  • 릴레이션을 구성하는 모든 튜플에 대해 유일성은 만족하지만, 최소성은 만족하지 못함

외래키(Foreign Key)

  • 다른 릴레이션의 기본키를 참조하는 속성 또는 속성들의 집합을 의미

관계형 데이터베이스의 제약 조건 - 무결성(Integrity)

  • 데이터베이스에 저장된 데이터 값과 그것이 표현하는 현실 세계의 실제값이 일치하는 정확성을 의미

무결성의 종류

개체 무결성

  • 기본 테이블의 기본키를 구성하는 어떤 속성도 NULL 값이나 중복값을 가질 수 없다.

참조 무결성

  • 외래키 값은 NULL이거나 참조 릴레이션의 기본키 값과 동일해야 한다.

도메인 무결성

  • 주어진 속성 값이 정의된 도메인에 속한 값이어야 한다.

사용자 정의 무결성

  • 속성 값들이 사용자가 정의한 제약조건에 만족되어야 한다.

NULL 무결성

  • 릴레이션의 특정 속성 값이 NULL이 될 수 없도록 한다.

고유 무결성

  • 릴레이션의 특정 속성에 대해 각 튜플이 갖는 속성값들이 서로 달라야 한다.

키 무결성

  • 하나의 릴레이션에는 적어도 하나의 키가 존재해야 한다.

관계 무결성

  • 릴레이션에 어느 한 튜플의 삽입 가능 여부 또는 한 릴레이션과 다른 릴레이션의 튜플들 사이의 관계에 대한 적절성 여부를 지정한다.

데이터 무결성 강화

애플리케이션

  • 데이터 생성, 수정, 삭제 시 무결성 조건을 검증하는 코드를 프로그램 내에 추가

데이터베이스 트리거

  • 트리거 이벤트에 무결성 조건을 실행하는 절차형 SQL을 추가

제약 조건

  • 데이터베이스에 제약 조건을 설정하여 무결성을 유지

관계대수 및 관계해석

관계대수

  • 관계형 데이터베이스에서 원하는 정보와 그 정보를 검색하기 위해서 어떻게 유도하는가를 기술하는 절차적인 언어
  • 릴레이션을 처리하기 위해 연산자와 연산규칙을 제공하며, 피연산자와 연산 결과가 모두 릴레이션
  • 질의에 대한 해를 구하기 위해 수행해야 할 연산의 순서를 명시
  • 관계 데이터베이스에 적용하기 위해 특별히 개발한 순수 관계 연산자와 수학적 집합 이론에서 사용하는 일반 집합 연산자가 있다.

순수 관계 연산자

Select

  • 릴레이션에 존재하는 튜플 중에서 선택 조건을 만족하는 튜플의 부분집합을 구하여 새로운 릴레이션을 만드는 연산

Project

  • 주어진 릴레이션에서 속성 리스트에 제시된 속성 값만을 추출하여 새로운 릴레이션을 만드는 연산
  • 연산 결과에 중복이 발생하면 중복이 제거

Join

  • 공통 속성을 중심으로 두 개의 릴레이션을 하나로 합쳐서 새로운 릴레이션을 만드는 연산
  • Join의 결과는 Cartesian Product를 수행한 다음 Select를 수행한 것과 같다.

Division

  • 릴레이션 A, B가 있을 때 릴레이션 B의 조건에 맞는 것들만 릴레이션 A에서 분리하여 프로젝션을 하는 연산

일반 집합 연산자

  • 수학적 집합 이론에서 사용하는 연산자

합집합 UNION

  • 두 릴레이션에 존재하는 튜플의 합집합을 구하되, 결과로 생성된 릴레이션에서 중복되는 튜플은 제거되는 연산

교집합 INTERSECTION

  • 두 릴레이션에 존재하는 튜플의 교집합을 구하는 연산

차집합 DIFFERENCE

  • 두 릴레이션에 존재하는 튜플의 차집합을 구하는 연산

교차곱 CARTESIAN PRODUCT

  • 두 릴레이션에 있는 튜플들의 순서쌍을 구하는 연산

관계해석(Relational Calculus)

  • 관계 데이터의 연산을 표현하는 방법
  • 수학의 Predicate Calculus(술어 해석)에 기반을 두고 관계 데이터베이스를 위해 제안
  • 원하는 정보가 무엇이라는 것만 정의하는 비절차적 특성을 지닌다.

이상/함수적 종속

이상(Anomaly)

  • 테이블에서 일부 속성들의 종속으로 인해 데이터의 중복이 발생하고, 이 중복(Redundancy)으로 인해 테이블 조작 시 문제가 발생하는 현상을 의미

삽입 이상(Insertion Anomaly)

  • 테이블에 데이터를 삽입할 때 의도와는 상관없이 원하지 않은 값들로 인해 삽입할 수 없게 되는 현상

삭제 이상(Deletion Anomaly)

  • 테이블에서 한 튜플을 삭제할 때 의도와는 상관없는 값들도 함께 삭제되는, 즉 연쇄 삭제가 발생하는 현상

갱신 이상(Update Anomaly)

  • 테이블에서 튜플에 있는 속성 값을 갱신할 때 일부 튜플의 정보만 갱신되어 정보에 불일치성(Inconsistency)이 생기는 현상

함수적 종속(Functional Dependency)

  • 속성 X의 값 각각에 대해 시간에 관계없이 항상 속성 Y의 값이 오직 하나만 연관되어 있을 때 Y는 X에 함수적 종속 또는 X가 Y를 함수적으로 결정한다고 하고, X->Y로 표기한다.
  • X->Y의 관계를 갖는 속성 X와 Y에서 X를 결정자(Determinant)라 하고, Y를 종속자(Dependent)라고 한다.

정규화(Normalization)

  • 테이블의 속성들이 상호 종속적인 관계를 갖는 특성을 이용하여 테이블을 무손실 분해하는 과정
  • 목적은 가능한 한 중복을 제거하여 삽입, 삭제, 갱신 이상의 발생 가능성을 줄이는 것

정규화 과정

제 1정규형

  • 테이블 R에 속한 모든 속성의 도메인(Domain)이 원자 값(Atomic Value)만으로 되어 있는 정규형

제 2정규형

  • 테이블 R이 제 1정규형이고, 기본키가 아닌 모든 속성이 기본키에 대하여 완전 함수적 종속을 만족하는 정규형

제 3정규형

  • 테이블 R이 제 2정규형이고 기본키가 아닌 모든 속성이 기본키에 대해 이행적 함수적 종속을 만족하지 않는 정규형

BCNF

  • 테이블 R에서 모든 결정자가 후보키(Candidate Key)인 정규형

제 4정규형

  • 테이블 R에 다중 값 종속(다치종속) A->->B가 존재할 경우 R의 모든 속성이 A에 함수적 종속 관계를 만족하는 정규형

제 5정규형

  • 테이블 R의 모든 조인 종속이 R의 후보키를 통해서만 성립되는 정규형

반정규화(Denormalization)

  • 정규화된 데이터 모델을 의도적으로 통합, 중복, 분리하여 정규화 원칙을 위배하는 행위
  • 데이터의 일관성 및 정합성이 저하

반정규화의 방법

  • 테이블 통합
  • 테이블 분할
  • 중복 테이블 추가
  • 중복 속성 추가

테이블 통합

  • 두 개의 테이블이 조인되어 사용되는 경우가 많을 경우 성능 향상을 위해 아예 하나의 테이블로 만들어 사용하는 것

테이블 통합을 고려하는 경우

  • 두 개의 테이블에서 발생하는 프로세스가 동일하게 자주 처리되는 경우
  • 항상 두 개의 테이블을 이용하여 조회를 수행하는 경우

테이블 통합의 종류

  • 1:1 관계 테이블 통합
  • 1:N 관계 테이블 통합
  • 슈퍼타입/서브타입 테이블 통합

테이블 분할

  • 테이블을 수직 또는 수평으로 분할하는 것

수평 분할

  • 레코드를 기준으로 테이블을 분할하는 것

수직 분할

  • 하나의 테이블에 속성이 너무 많을 경우 속성을 기준으로 테이블을 분할하는 것

중복 테이블 추가

  • 작업의 효율성을 향상시키기 위해 테이블을 추가하는 것

중복 테이블을 추가하는 경우

  • 여러 테이블에서 데이터를 추출해서 사용해야 할 경우
  • 다른 서버에 저장된 테이블을 이용해야 하는 경우

중복 테이블 추가 방법

  • 집계 테이블의 추가
  • 진행 테이블의 추가
  • 특정 부분만을 포함하는 테이블의 추가

중복 속성 추가

  • 조인해서 데이터를 처리할 때 데이터를 조회하는 경로를 단축하기 위해 자주 사용하는 속성을 하나 더 추가하는 것

중복 속성을 추가하는 경우

  • 조인이 자주 발생하는 속성
  • 접근 경로가 복잡한 속성
  • 액세스의 조건으로 자주 사용되는 속성

시스템 카탈로그(System Catalog)

  • 시스템 그 자체에 관련이 있는 다양한 객체에 관한 정보를 포함하는 시스템 데이터베이스
  • 좁은 의미로 카탈로그를 데이터 사전이라고도 한다.

메타 데이터(Meta-Data)

  • 시스템 카탈로그에 저장된 정보를 의미

메타 데이터의 유형

  • 데이터베이스 객체 정보
  • 사용자 정보
  • 테이블의 무결성 제약 조건 정보
  • 함수, 프로시저, 트리거 등에 대한 정보

데이터 디렉터리(Data Directory)

  • 데이터 사전에 수록된 데이터에 접근하는 데 필요한 정보를 관리 유지하는 시스템
  • 시스템 카탈로그는 사용자와 시스템 모두 접근할 수 있지만 데이터 디렉터리는 시스템만 접근할 수 있다.

데이터베이스 저장 공간 설계

  • 테이블(Table)
  • 컬럼(Column)
  • 테이블스페이스(Tablespace): 테이블이 저장되는 논리적인 영역

테이블 종류

  • 일반 테이블
  • 클러스티드 인덱스 테이블(Clusted Index Table): 기본키나 인덱스키의 순서에 따라 데이터가 저장되는 테이블
  • 파티셔닝 테이블(Partitioning Table): 대용량의 테이블을 작은 논리적 단위인 파티션(Partition)으로 나눈 테이블
  • 외부 테이블(External Table): 데이터베이스에서 일반 테이블처럼 이용할 수 있는 외부 파일
  • 임시 테이블(Temporary Table): 트랜잭션이나 세션별로 데이터를 저장하고 처리할 수 있는 테이블

트랜잭션(Transaction)

  • 데이터베이스에서 하나의 논리적 기능을 수행하기 위한 작업의 단위 또는 한꺼번에 모두 수행되어야 할 일련의 연산들을 의미

트랜잭션의 특성

Atomicity(원자성)

  • 트랜잭션의 연산은 데이터베이스에 모두 반영되도록 완료(Commit)되든지 아니면 전혀 반영되지 않도록 복구(Rollback)되어야 한다.

Consistency(일관성)

  • 트랜잭션이 그 실행을 성공적으로 완료하면 언제나 일관성 있는 데이터베이스 상태로 변환한다.

Isolation(독립성)

  • 둘 이상의 트랜잭션이 동시에 병행 실행되는 경우 어느 하나의 트랜잭션 실행 중에 다른 트랜잭션의 연산이 끼어들 수 없음

Durability(영속성, 지속성)

  • 성공적으로 완료된 트랜잭션의 결과는 시스템이 고장나더라도 영구적으로 반영되어야 한다.

CRUD 분석

  • 프로세스와 테이블 간에 CRUD 매트릭스를 만들어서 트랜잭션을 분석하는 것

CRUD 매트릭스

  • 2차원 형태의 표로서, 행(Row)에는 프로세스를, 열(Column)에는 테이블을, 행과 열이 만나는 위치에는 프로세스가 테이블에 발생시키는 변화를 표시하여 프로세스와 데이터 간의 관계를 분석하는 분석표

트랜잭션 분석

  • CRUD 매트릭스를 기반으로 테이블에 발생하는 트랜잭션 양을 분석하여 테이블에 저장되는 데이터의 양을 유추하고 이를 근거로 DB의 용량 산정 및 구조의 최적화를 목적
  • 트랜잭션 분석서: 단위 프로세스와 CRUD 매트릭스를 이용하여 작성

인덱스(Index)

  • 데이터 레코드를 빠르게 접근하기 위해 <키 값, 포인터> 쌍으로 구성되는 데이터 구조

인덱스의 종류

  • 트리 기반 인덱스: 인덱스를 저장하는 블록들이 트리 구조를 이루고 있는 것
  • 비트맵 인덱스: 인덱스 컬럼의 데이터를 Bit값으로 변환하여 인덱스키로 사용하는 방법
  • 함수 기반 인덱스: 컬럼의 값 대신 컬럼에 특정 함수나 수식을 적용하여 산출된 값을 사용하는 것
  • 비트맵 조인 인덱스: 다수의 조인된 객체로 구성된 인덱스
  • 도메인 인덱스: 개발자가 필요한 인덱스를 직접 만들어 사용하는 것

클러스터드/넌클러스터드 인덱스

클러스터드 인덱스(Clusterd Index)

  • 인덱스 키의 순서에 따라 데이터가 정렬되어 저장되는 방식
  • 실제 데이터가 순서대로 저장되어 있어 인덱스를 검색하지 않아도 원하는 데이터를 빠르게 찾을 수 있음

넌클러스터드 인덱스(Non-Clusterd Index)

  • 인덱스의 키 값만 정렬되어 있고 실제 데이터는 정렬되지 않는 방식
  • 데이터의 삽입. 삭제 발생 시 순서를 유지하기 위해 데이터를 재정렬해야 함

뷰/클러스터

뷰(View)

  • 하나 이상의 기본 테이블로부터 유도된 가상 테이블

뷰의 장점

  • 논리적 데이터 독립성을 제공
  • 사용자의 데이터 관리를 간단하게 함
  • 접근 제어를 통한 자동 보안이 제공

뷰의 단점

  • 독립적인 인덱스를 가질 수 없음
  • 뷰의 정의를 변경할 수 없음
  • 뷰로 구성된 내용에 대한 삽입, 삭제, 갱신 연산에 제약이 따름

클러스터(Cluster)

  • 동일한 성격의 데이터를 동일한 데이터 블록에 저장하는 물리적 저장 방법
  • 처리 범위가 넓은 경우에는 단일 테이블 클러스터링을, 조인이 많이 발생하는 경우에는 다중 테이블 클러스터링을 사용

파티션(Partition)

  • 대용량의 테이블이나 인덱스를 작은 논리적 단위인 파티션으로 나누는 것

파티션의 장점

  • 액세스 범위를 줄여 쿼리 성능이 향상
  • 데이터가 분산되어 저장되므로 디스크의 성능이 향상
  • 파티션별로 백업 및 복구를 수행하므로 속도가 빠름
  • 시스템 장애 시 데이터 손상 정도 최소화

파티션의 단점

  • 세심한 관리가 요구
  • 테이블간 조인에 대한 비용 증가
  • 용량이 작은 테이블에 파티셔닝을 수행하면 오히려 성능이 저하

파티션의 종류

범위 분할(Range Partitioning)

  • 지정된 열의 값을 기준으로 분할

해시 분할(Hash Partitioning)

  • 해시 함수를 적용한 결과 값에 따라 데이터를 분할
  • 특정 파티션에 데이터가 집중되는 범위 분할의 단점을 보완한 것으로, 데이터를 고르게 분산할 때 유용
  • 데이터가 고른 컬럼에 효과적

조합 분할(Composite Partitioning)

  • 범위 분할로 분할한 다음 해시 함수를 적용하여 다시 분할하는 방식

분산 데이터베이스 설계

  • 논리적으로는 하나의 시스템에 속하지만 물리적으로는 네트워크를 통해 연결된 여러 개의 사이트에 분산된 데이터베이스를 말한다.
  • 애플리케이션이나 사용자가 분산되어 저장된 데이터에 접근하게 하는 것을 목적으로 한다.

분산 데이터베이스의 목표

위치 투명성(Location Transparency)

  • 액세스하려는 데이터베이스의 실제 위치를 알 필요 없이 단지 데이터베이스의 논리적인 명칭만으로 액세스할 수 있다.

중복 투명성(Replication Transparency)

  • 동일 데이터가 여러 곳에 중복되어 있더라도 사용자는 마치 하나의 데이터만 존재하는 것처럼 사용한다.

병행 투명성(Concurrency Transparency)

  • 분산 데이터베이스와 관련된 다수의 트랜잭션들이 동시에 실현되더라도 그 트랜잭션의 결과는 영향을 받지 않는다.

장애 투명성(Failure Transparency)

  • 장애에도 불구하고 트랜잭션을 정확하게 처리한다.

분산 설계 방법

  • 테이블 위치 분산
  • 분할(수평, 수직)
  • 할당: 동일한 분할을 여러 개의 서버에 생성

데이터베이스 이중화/서버 클러스터링

데이터베이스 이중화(Database Replication)

  • 동일한 데이터베이스를 복제하여 관리하는 것

데이터베이스 이중화의 분류

Eager 기법

  • 트랜잭션수행 중 데이터 변경이 발생하면 이중화된 모든 데이터베이스에 즉시 전달하여 변경 내용이 즉시 적용되도록 한다.

Lazy 기법

  • 트랜잭션의 수행이 종료되면 변경 사실을 새로운 트랜잭션에 작성하여 각 데이터베이스에 전달한다.

데이터베이스 이중화 구성 방법

활동-대기(Active-Standby)

  • 한 DB가 활성 상태로 서비스하고 있으면 다른 DB는 대기하고 있다가 활성 DB에 장애가 발생하면 대기 상태에 있던 DB가 자동으로 모든 서비스를 대신 수행

활동-활동(Active-Active)

  • 두 개의 DB가 서로 다른 서비스를 제공하다가 둘 중 한쪽 DB에 문제가 발생하면 나머지 다른 DB가 서비스를 제공

클러스터링(Clustering)

  • 두 대 이상의 서버를 하나의 서버처럼 운영하는 기술

클러스터링 종류

  • 고가용성 클러스터링: 하나의 서버에 장애가 발생하면 다른 노드(서버)가 받아 처리하여 서비스 중단을 방지하는 방식
  • 병렬 처리 클러스터링: 하나의 작업을 여러 개의 서버에서 분산하여 처리하는 방식

RTO/RPO

RTO(Recovery Time Objective, 목표 복구 시간)

  • 비상사태 또는 업무 중단 시점으로부터 복구되어 가동될 떄까지의 소요 시간을 의미

RPO(Recovery Point Objective, 목표 복구 시점)

  • 비상사태 또는 업무 중단 시점으로부터 데이터를 복구할 수 있는 기준점을 의미

데이터베이스 보안

  • 권한이 없는 사용자가 액세스하는 것을 금지하기 위해 사용되는 기술

암호화(Encryption)

  • 데이터를 보낼 때 송신자가 지정한 수신자 이외에는 그 내용을 알 수 없도록 평문을 암호문으로 변환하는 것

복호화(Decryption)

  • 암호문을 원래의 평문으로 바꾸는 과정

암호화 기법

  • 개인키 암호 방식(Private Key Encryption)
  • 공개키 암호 방식(Public Key Encryption)

접근통제

  • 데이터가 저장된 객체와 이를 사용하려는 주체 사이의 정보 흐름을 제한하는 것

접근통제 3요소

  • 접근통제 정책
  • 접근통제 메커니즘
  • 접근통제 보안모델

접근통제 기술

임의 접근통제(DAC, Discretionary Access Control)

  • 데이터에 접근하는 사용자의 신원에 따라 접근 권한을 부여하는 방식

강제 접근통제(MAC, Mandatory Access Control)

  • 주체와 객체의 등급을 비교하여 접근 권한을 부여하는 방식

역할기반 접근통제(RBAC, Role Based Access Control)

  • 사용자의 역할에 따라 접근 권한을 부여하는 방식

접근통제 정책

  • 어떤 주체가 언제, 어디서, 어떤 객체에게. 어떤 행위에 대한 허용 여부를 정의하는 것

접근통제 정책의 종류

  • 신분 기반 정책
  • 규칙 기반 정책
  • 역할 기반 정책

접근통제 매커니즘

  • 정의된 접근통제 정책을 구현하는 기술적인 방법

접근통제 보안 모델

  • 보안 정책을 구현하기 위한 정형화된 모델

접근통제 보안 모델의 종류

기밀성 모델

  • 군사적인 목적으로 개발된 최초의 수학적 모델

무결성 모델

  • 기밀성 모델에서 발생하는 불법적인 정보 변경을 방지하기 위해 무결성을 기반으로 개발된 모델

접근통제 모델

  • 접근통제 메커니즘을 보안 모델로 발전시킨 것

접근통제 조건

  • 접근통제 메커니즘의 취약점을 보완하기 위해 접근통제 정책에 부가하여 적용할 수 있는 조건
  • 값 종속 통제, 다중 사용자 통제, 컨텍스트 기반 통제

감사 추적

  • 사용자나 애플리케이션이 데이터베이스에 접근하여 수행한 모든 활동을 기록하는 기능

데이터베이스 백업

  • 전산 장비의 장애에 대비하여 데이터베이스에 저장된 데이터를 보호하고 복구하기 위한 작업

로그 파일

  • 데이터베이스의 상태 변화를 시간의 흐름에 따라 모두 기록한 파일

데이터베이스 복구 알고리즘

NO-UNDO/REDO

  • 데이터베이스 버퍼의 내용을 비동기적으로 갱신한 경우의 복구 알고리즘

UNDO/NO-REDO

  • 데이터베이스 버퍼의 내용을 동기적으로 갱신한 경우의 복구 알고리즘

UNDO/REDO

  • 데이터베이스 버퍼의 내용을 동기/비동기적으로 갱신한 경우의 복구 알고리즘

NO-UNDO/NO-REDO

  • 데이터베이스 버퍼의 내용을 동기적으로 저장 매체에 기록하지만 데이터베이스와는 다른 영역에 기록한 경우의 복구 알고리즘

백업 종류

  • 운영체제를 이용하는 물리 백업과 DBMS 유틸리티를 이용하는 논리 백업

물리 백업

  • 데이터베이스 파일을 백업하는 방법

논리 백업

  • DB 내의 논리적 객체들를 백업하는 방법

스토리지(Storage)

  • 대용량의 데이터를 저장하기 위해 서버와 저장장치를 연결하는 기술

DAS(Direct Attached Storage)

  • 서버와 저장장치를 전용 케이블로 직접 연결하는 방식

NAS(Network Attached Storage)

  • 서버와 저장장치를 네트워크를 통해 연결하는 방식

SAN(Storage Area Network)

  • 서버와 저장장치를 연결하는 전용 네트워크를 별도로 구성하는 방식

논리 데이터 모델의 변환

엔티티를 테이블로 변환

  • 논리 데이터 모델에서 정의된 엔티티를 물리 데이터 모델의 테이블로 변환하는 것

슈퍼타입/서브타입을 테이블로 변환

  • 슈퍼타입/서브타입은 논리 데이터 모델에서 이용되는 형태이므로 물리 데이터 모델을 설계할 때는 슈퍼타입/서브타입을 테이블로 변환해야 한다.

슈퍼타입 기준 테이블 변환

  • 서브타입을 슈퍼타입에 통합하여 하나의 테이블로 만드는 것
  • 서브타입에 속성이나 관계가 적을 경우에 적용
  • 하나로 통합된 테이블에는 서브타입의 모든 속성이 포함

서브타입 기준 테이블 변환

  • 슈퍼타입 속성들을 각각의 서브타입에 추가하여 서브타입들을 개별적인 테이블로 만드는 것
  • 서브타입에 속성이나 관계가 많이 포함된 경우 적용

개별타입 기준 테이블 변환

  • 슈퍼타입과 서브타입들을 각각의 개별적인 테이블로 변환하는것
  • 슈퍼타입과 서브타입 테이블들 사이에는 각각 1:1 관계가 형성

속성을 컬럼으로 변환

  • 일반 속성 변환
  • Primary UID를 기본키로 변환
  • Secondary UID를 유니크키로 변환

관계를 외래키로 변환

  • 논리 데이터 모델에서 정의된 관계는 기본키와 이를 참조하는 외래키로 변환

물리 데이터 모델 품질 검토

  • 목적은 데이터베이스의 성능 향상과 오류 예방

물리 데이터 모델 품질 기준

  • 정확성
  • 완전성
  • 준거성
  • 최신성
  • 일관성
  • 활용성

물리 데이터 모델 품질 검토 항목

  • 물리 데이터 모델의 특성을 반영한 품질 기준을 작성한 후 이를 기반으로 작성

자료 구조

  • 자료를 기억장치 공간 내에 저장하는 방법과 자료 간의 관계, 처리 방법 등을 연구 분석하는 것

자료 구조의 분류

선형 구조(Linear Structure)

  • 배열
  • 선형 리스트 - 연속 리스트(Contiguous List), 연결 리스트(Linked List)
  • 스택
  • 데크

비선형 구조(Non-Linear Structure)

  • 트리
  • 그래프

배열(Array)

  • 크기와 형(Type)이 동일한 자료들이 순서대로 나욜된 자료의 집합

연속 리스트(Contiguous List)

  • 연속되는 기억장소에 저장되는 자료 구조

연결 리스트(Linked List)

  • 자료들을 임의의 기억공간에 기억시키되. 노드의 포인터 부분을 이용하여 서로 연결시킨 자료 구조

스택(Stack)

  • 리스트의 한쪽 끝으로만 자료의 삽입, 삭제 작업이 이루어지는 자료 구조

큐(Queue)

  • 리스트의 한쪽에서는 삽입 작업이 이루어지고 다른 한쪽에서는 삭제 작업이 이루어지는 자료 구조

그래프(Graph)

  • 정점(Vertex)와 간선(Edge)의 두 집합으로 이루어지는 자료 구조
  • 사이클이 없는 그래프를 트리라고 한다.

방향/무방향 그래프의 최대 간선 수

방향 그래프: n(n-1)
무방향 그래프: n(n-1)/2

트리(Tree)

  • 트리는 정점(Node, 노드)과 선분(Branch, 가지)을 이용하여 사이클을 이루지 않도록 구성한 그래프(Graph)의 특수한 형태이다.

트리 관련 용어

  • 노드(Node): 트리의 기본 요소로서 자료 항복과 다른 항복에 대한 가지(Branch)를 합친 것
  • 근 노드(Root Node): 트리의 맨 위에 있는 노드
  • 디그리(Degree, 차수): 각 노드에서 뻗어나온 가지의 수
  • 단말 노드(Terminal Node) = 잎 노드(Leaf Node): 자식이 하나도 없는 노드, 즉 Degree가 0인 노드
  • 비단말 노드(Non-Terminal Node): 자식이 하나라도 있는 노드
  • 조상 노드(Ancestors Node): 임의의 노드에서 근 노드에 이르는 경로상에 있는 노드들
  • 자식 노드(Son Node): 어떤 노드에 연결된 다음 레벨의 노드들
  • 부모 노드(Parent Node): 어떤 노드에 연결된 이전 레벨의 노드들
  • 형제 노드(Brother Node, Sibling): 동일한 부모를 갖는 노드들
  • Level: 근 노드의 Level을 1로 가정한 후 어떤 Level이 L이면 자식 노드는 L+1
  • 깊이(Depth, Height): Tree에서 노드가 가질 수 있는 최대의 레벨
  • 숲(Forest): 여러 개의 트리가 모여 있는 것
  • 트리의 디그리: 노드들의 디그리 중에서 가장 많은 수

이진 트리

  • 차수(Degree)가 2 이하인 노드들로 구성된 트리

트리의 운행법

  • 트리를 구성하는 각 노드들을 찾아가는 방법을 운행법(Traversal)이라고 한다.
  • 이진 트리의 운행법: Preorder 운행, Inorder 운행, Postorder 운행

Preorder 운행법

  • 이진 트리를 Root->Left->Right 순으로 운행하며 노드를 찾아가는 과정

Inorder 운행법

  • 이진 트리를 Left->Root->Right 순으로 운행하며 노드를 찾아가는 과정

Postorder 운행법

  • 이진 트리를 Left->Right->Root 순으로 운행하며 노드를 찾아가는 방법

수식의 표기법

  • 이진 트리를 만들어진 수식을 인오더, 프리오더, 포스트오더로 운행하면 각각 중위(Infix), 전위(Prefix), 후위(Postfix) 표기법이 된다.

정렬(Sort)

삽입 정렬(Insertion Sort)

  • 이미 순서화된 파일에 새로운 하나의 레코드를 순서에 맞게 삽입시켜 정렬하는 방식
  • 평균과 최악 모두 수행 시간 복잡도는 O(n^2)

선택 정렬(Selection Sort)

  • n개의 레코드 중에서 최소값을 찾아 첫 번째 레코드 위치에 놓고, 나머지 (n-1)개 중에서 다시 최소값을 찾아 두 번째 레코드 위치에 놓는 방식을 반복하여 정렬하는 방식
  • 평균과 최악 모두 수행 시간 복잡도는 O(n^2)

버블 정렬(Bubble Sort)

  • 인접한 두 개의 레코드 키 값을 비교하여 그 크기에 따라 레코드 위치를 서로 교환하는 정렬 방식
  • 평균과 최악 모두 수행 시간 복잡도는 O(n^2)

쉘 정렬(Shell Sort)

  • 어떤 매개변수의 값으로 서브파일을 구성하고, 각 서브파일을 Insertion 정렬 방식으로 순서 배열하는 과정을 반복하는 정렬 방식
  • 평균 수행 시간 복잡도는 O(n^1.5)이고, 최악의 수행 시간 복잡도는 O(n^2)

퀵 정렬(Quick Sort)

  • 키를 기준으로 작은 값은 왼쪽, 큰 값은 오른쪽 서브 파일에 분해시키는 과정을 반복하는 정렬 방식
  • 평균 수행 시간 복잡도는 O(nlog2nnlog{_2}{n})이고, 최악의 수행시간 복잡도는 O(n^2)이다.

힙 정렬(Heap Sort)

  • 전이진 트리(Complete Binary Tree)를 이용한 정렬 방식이다.
  • 평균과 최악 모두 시간 복잡도는 O(nlog2nnlog{_2}{n})

2-Way 합병 정렬(Merge Sort)

  • 이미 정렬되어 있는 두 개의 파일을 한 개의 파일로 합병하는 정렬 방식
  • 평균과 최악 모두 시간 복잡도는 O(nlog2nnlog{_2}{n})

기수 정렬(Radix Sort) = Bucket Sort

  • Queue를 이용하여 자릿수(Digit)별로 정렬하는 방식
  • 평균과 최악 모두 시간 복잡도는 O(dn)
profile
귀여운 설이에양

0개의 댓글