정보처리기사 실기 - 데이터 입출력 구현

Minseol·2023년 2월 27일

정보처리기사

목록 보기

4/17

데이터 전환

운영중인 기존 정보 시스템에 축적되어 있는 데이터를 추출하여 새로 개발할 정보 시스템에서 운영할 수 있도록 변환한 후, 적재하는 일련의 과정
ETL, 즉 추출(Extraction), 변환(Transformation), 적재(Load) 과정이라고 한다.
데이터 이행(Data Migration) 또는 데이터 이관이라고도 한다.

데이터 전환 계획서

데이터 전환이 필요한 대상을 분석하여 데이터 전환 작업에 필요한 모든 계획을 기록하는 문서

데이터 검증

원천 시스템의 데이터를 목적 시스템의 데이터로 전환하는 과정이 정상적으로 수행되었는지 여부를 확인하는 과정

검증 방법에 따른 분류

로그 검증: 데이터 전환 과정에서 작성하는 로그를 검증
기본 항목 검증: 로그 검증 외에 별도로 요청된 검증 항목에 대해 검증
응용 프로그램 검증: 응용 프로그램을 통한 데이터 전환의 정확성을 검증
응용 데이터 검증: 사전에 정의된 업무 규칙을 기준으로 데이터 전환의 정합성을 검증
값 검증: 숫자 항목의 합계 검증, 코드 데이터의 범위 검증, 속성 변경에 따른 값 검증을 수행

검증 단계에 따른 분류

추출 -> 전환 -> DB 적재 -> DB 적재 후 -> 전환 완료 후

추출, 전환, DB 적재: 로그 검증
DB 적재 후: 기본 항목 검증
전환 완료 후: 응용 프로그램 검증, 응용 데이터 검증

오류 데이터 측정 및 정제

고품질의 데이터를 운영 및 관리하기 위해 수행
데이터 분석 -> 오류 데이터 측정 -> 오류 데이터 정제 순으로 진행한다.

오류 상태

Open
Assigned
Fixed
Closed
Deferred
Clarified/Classified: 보고된 오류를 관련자들이 확인했을 때 오류가 아니라고 확인된 상태

데이터 정제요청서

데이터 정제와 관련된 전반적인 내용을 문서로 작성한 것

데이터 정제보고서

정제된 원천 데이터가 정상적으로 정제되었는지를 확인한 결과를 문서로 작성한 것

데이터베이스 개요

데이터저장소

데이터를 논리적인 구조로 조직화하거나, 물리적인 공간에 구축한 것을 의미

데이터베이스(Database)

여러 사람에 의해 공동으로 사용될 데이터를 중복을 배제하여 통합하고, 쉽게 접근하여 처리할 수 있도록 저장장치에 저장하여 항상 사용할 수 있도록 운영하는 운영 데이터

데이터베이스는 다음과 같이 구분하여 정의할 수 있다.

통합된 데이터(Integrated Data): 자료의 중복을 배제한 데이터의 모임
저장된 데이터(Stored Data): 컴퓨터가 접근할 수 있는 저장 매체에 저장된 자료
운영 데이터(Operational Data): 조직의 고유한 업무를 수행하는 데 반드시 필요한 자료
공용 데이터(Shared Data): 여러 응용 시스템들이 공동으로 소유하고 유지하는 자료

DBMS(DataBase Management System; 데이터베이스 관리 시스템)

사용자의 요구에 따라 정보를 생성해주고, 데이터베이스를 관리해주는 소프트웨어
기존의 파일 시스템이 갖는 데이터의 종속성과 중복성의 문제를 해결하기 위해 제안된 시스템

DBMS의 필수 기능 3가지

정의(Definition) 기능
조작(Manipulation) 기능
제어(Control) 기능

데이터의 독립성

종속성에 대비되는 말로 논리적 독립성과 물리적 독립성이 있다.
논리적 독립성: 응용 프로그램과 데이터 베이스를 독립시킴으로써, 데이터의 논리적 구조를 변경시키더라도 응용 프로그램은 영향을 받지 않음
물리적 독립성: 응용 프로그램과 보조기억장치 같은 물리적 장치를 독립시킴으로써, 디스크를 추가/변경하더라도 응용 프로그램은 영향을 받지 않음

스키마

데이터베이스의 구조와 제약조건에 관한 전반적인 명세를 기술한 것

스키마의 종류

외부 스키마: 사용자나 응용 프로그래머가 각 개인의 입장에서 필요로 하는 데이터베이스의 논리적 구조를 정의한 것
개념 스키마: 데이터베이스의 전체적인 논리적 구조로, 모든 응용 프로그램이나 사용자들이 필요로 하는 데이터를 종합한 조직 전체의 데이터베이스로 하나만 존재
내부 스키마: 물리적 저장장치의 입장에서 본 데이터베이스 구조로, 실제로 저장될 레코드의 형식, 저장 데이터 항목의 표현 방법, 내부 레코드의 물리적 순서 등을 나타냄

데이터베이스 설계

사용자의 요구를 분석하여 그것들을 컴퓨터에 저장할 수 있는 데이터베이스의 구조에 맞게 변형한 후 DBMS로 데이터베이스를 구현하여 일반 사용자들이 사용하게 하는 것

데이터베이스 설계 시 고려사항

무결성: 삽입, 삭제, 갱신 등의 연산 후에도 데이터베이스에 저장된 데이터가 정해진 제약 조건을 항상 만족해야 함
일관성: 데이터베이스에 저장된 데이터들 사이나, 특정 질의에 대한 응답이 처음부터 끝까지 변함없이 일정해야 함
회복: 시스템에 장애가 발생했을 때 장애 발생 직전의 상태로 복구할 수 있어야 함
보안: 불법적인 데이터의 노출 또는 변경이나 손실로부터 보호할 수 있어야 함
효율성: 응답시간의 단축, 시스템의 생산성, 저장 공간의 최적화 등이 가능해야 함
데이터베이스 확장: 데이터베이스 운영에 영향을 주지 않으면서 지속적으로 데이터를 추가할 수 있어야 함

데이터베이스 설계 순서

요구 조건 분석
개념적 설계
논리적 설계
물리적 설계
구현

요구 조건 분석

데이터베이스를 사용할 사람들로부터 필요한 용도를 파악하는 것
수집된 정보를 바탕으로 요구 조건 명세를 작성

개념적 설계(정보 모델링, 개념화)

현실 세계에 대한 인식을 추상적 개념으로 표현하는 과정
개념 스키마 모델링과 트랜잭션 모델링을 병행 수행
요구 분석에서 나온 결과인 요구 조건 명세를 DBMS에 독립적인 E-R 다이어그램으로 작성
DBMS에 독립적인 개념 스키마를 설계

논리적 설계(데이터 모델링)

현실 세계에서 발생할 수 있는 자료를 특정 DBMS가 지원하는 논리적 자료 구조로 변환(mapping)시키는 과정
개념 세계의 데이터를 필드로 기술된 데이터 타입과 이 데이터 타입들 간의 관계로 표현되는 논리적 구조의 데이터로 모델화
개념 스키마를 평가 및 정제하고 DBMS에 따라 서로 다른 논리적 스키마를 설계하는 단계
트랜잭션의 인터페이스를 설계

물리적 설계(데이터 구조화)

논리적 구조로 표현된 데이터를 물리적 구조의 데이터로 변환하는 과정
다양한 데이터베이스 응용에 대해 처리 성능을 얻기 위해 데이터베이스 파일의 저장 구조 및 액세스 경로를 결정

데이터베이스 구현

논리적 설계와 물리적 설계에서 도출된 데이터베이스 스키마를 파일로 생성하는 과정
응용 프로그램을 위한 트랜잭션을 작성
데이터베이스 접근을 위한 응용 프로그램을 작성

데이터 모델

현실 세계의 정보들을 컴퓨터에 표현하기 위해서 단순화, 추상화하여 체계적으로 표현한 개념적 모형
데이터 모델 구성 요소: 개체, 속성, 관계
데이터 모델 종류: 개념적 데이터 모델, 논리적 데이터 모델, 물리적 데이터 모델
데이터 모델에 표시할 요소: 구조, 연산, 제약 조건

개념적 데이터 모델

현실 세계에 대한 인간의 이해를 돕기 위해 현실 세계에 대한 인식을 추상적 개념으로 표현하는 과정
대표적으로 E-R 모델이 있다.

논리적 데이터 모델

개념적 모델링 과정에서 얻은 개념적 구조를 컴퓨터 세계의 환경에 맞도록 변환하는 과정

데이터 모델에 표시할 요소

구조(Structure)

논리적으로 표현된 개체 타입들 간의 관계로서 데이터 구조 및 정적 성질 표현

연산(Operation)

데이터베이스에 저장된 실제 데이터를 처리하는 작업에 대한 명세로서 데이터베이스를 조작하는 기본 도구

제약 조건(Constraint)

데이터베이스에 저장될 수 있는 실제 데이터의 논리적인 제약 조건

데이터 모델의 구성 요소

개체(Entity)

데이터베이스에서 표현하려는 것으로, 사람이 생각하는 개념이나 정보 단위 같은 현실 세계의 대상체
독립적으로 존재하거나 그 자체로서도 구별이 가능하며, 유일한 식별자(Unique Identifier)에 의해 식별
다른 개체와 하나 이상의 관계(Relationship)가 있다.

속성(Attribute)

데이터베이스를 구성하는 가장 작은 논리적 단위
속성은 개체를 구성하는 항목으로 개체의 특성을 기술

속성의 특성에 따른 분류

기본 속성(Basic Attribute): 업무 분석을 통해 정의한 속성
설계 속성(Designed Attribute): 원래 업무상 존재하지 않고 설계 과정에서 도출해내는 속성
파생 속성(Derived Attribute): 다른 속성으로부터 계산이나 변형 등의 영향을 받아 발생하는 속성

속성의 개체 구성 방식에 따른 분류

기본키 속성(Primary Key Attribute): 개체를 유일하게 식별할 수 있는 속성
외래키 속성(Foreign Key Attribute): 다른 개체와의 관계에서 포함된 속성
일반 속성: 개체에 포함되어 있지 않고 기본키, 외래키에 포함되지 않은 속성

관계(Relationship)

개체와 개체 사이의 논리적인 연결을 의미

관계의 형태

관계의 종류

종속 관계(Dependent Relationship): 두 개체 사이의 주종 관계를 표현
중복 관계(Redundant Relationship): 두 개체 사이의 2번 이상의 종속 관계가 발생
재귀 관계(Recursive Relationship): 개체가 자기 자신과 관계를 갖는 것
배타 관계(Exclusive Relationship): 개체의 속성이나 구분자를 기준으로 개체의 특성을 분할하는 관계

식별자(Identifier)

하나의 개체 내에서 각각의 인스턴스를 유일(Unique)하게 구분할 수 있는 구분자
모든 개체는 한 개 이상의 식별자를 반드시 가져야 한다.

식별자의 분류

대표성 여부

주 식별자
보조 식별자

스스로 생성 여부

내부 식별자
외부 식별자

단일 속성 여부

단일 식별자
복합 식별자

대체 여부

원조 식별자
대리 식별자

후보 식별자

개체에서 각 인스턴스를 유일하게 식별할 수 있는 속성 또는 속성 집합을 의미

주 식별자의 특징

유일성: 개체 내의 모든 인스턴스들은 주 식별자에 의해 유일하게 구분
최소성: 유일성을 만족시키기에 필요한 최소한의 속성으로만 구성
불변성: 주 식별자가 특정 개체에 한 번 지정되면 그 식별자는 변하지 않아야 함
존재성: 주 식별자가 지정되면 식별자 속성에 반드시 데이터 값이 존재해야 함

E-R(Entity-Relationship) 모델

개체 타입과 이들 간의 관계 타입을 이용해 현실 세계를 개념적으로 표현한다.
데이터를 개체, 관계, 속성으로 묘사

E-R 다이어그램

사각형: 개체 타입
마름모: 관계 타입
타원: 속성
이중 타원: 다중값 속성(복합 속성)
밑줄 타원: 기본키 속성
복수 타원: 복합 속성
관계: 개체 간 관계에 대한 대응수를 선 위에 기술
선, 링크: 개체 타입과 속성을 연결

관계형 데이터베이스

2차원적인 표(Table)를 이용해서 데이터 상호 관계를 정의하는 데이터베이스
장점: 간결하고 보기 편리하며, 다른 데이터베이스로의 변환이 용이
단점: 성능이 다소 떨어짐

관계형 데이터베이스의 릴레이션 구조

릴레이션(Relation)은 데이터들을 표(Table)의 형태로 표현한 것으로, 구조를 나타내는 릴레이션 스키마와 실제 값들인 릴레이션 인스턴스로 구성

튜플(Tuple)

릴레이션을 구성하는 각각의 행
속성의 모임으로 구성된다.

속성(Attribute)

데이터베이스를 구성하는 가장 작은 논리적 단위
개체에 속성을 기술한다.

도메인(Domain)

하나의 애트리뷰트가 취할 수 있는 같은 타입의 원자(Atomic)값들의 집합

릴레이션의 특징

한 릴레이션에는 똑같은 튜플이 포함될 수 없으므로 릴레이션에 포함된 튜플들은 모두 상이하다.
릴레이션을 구성하는 튜플을 유일하게 식별하기 위해 속성들의 부분집합을 키(key)로 설정한다.
속성의 값은 논리적으로 더 이상 쪼갤 수 없는 원자값만을 저장한다.

관계형 데이터 모델(Relational Data Model)

2차원적인 표(Table)를 이용해서 데이터 상호 관계를 정의하는 DB 구조를 말한다.
기본키(Primary Key)와 이를 참조하는 외래키(Foreign Key)로 데이터 간의 관계를 표현한다.

관계형 데이터베이스의 제약 조건 - 키(Key)

데이터베이스에서 조건에 만족하는 튜플을 찾거나 순서대로 정렬할 때 기준이 되는 속성을 말한다.

키의 종류

후보키(Candiate Key)
기본키(Primary Key)
대체키(Alternate Key)
슈퍼키(Super Key)
외래키(Foreign Key)

후보키(Candidate Key)

릴레이션을 구성하는 속성들 중에서 튜플을 유일하게 식별하기 위해 사용되는 속성들의 부분집합
후보키는 유일성(Unique)과 최소성(Minimality)을 모두 만족시켜야 한다.

유일성(Unique): 하나의 키 값으로 하나의 튜플만을 유일하게 식별할 수 있어야 함
최소성(Minimality): 키를 구성하는 속성 하나를 제거하면 유일하게 식별할 수 없도록 꼭 필요한 최소의 속성으로 구성되어야 한다.

기본키(Primary Key)

후보키 중에서 특별히 선정된 주키(Main Key)이다.
한 릴레이션에서 특정 튜플을 유일하게 구별할 수 있는 속성이다.

대체키(Alternate Key)

후보키가 둘 이상일 때 기본키를 제외한 나머지 후보키를 의미

슈퍼키(Super Key)

한 릴레이션 내에 있는 속성들의 집합으로 구성된 키
릴레이션을 구성하는 모든 튜플에 대해 유일성은 만족하지만, 최소성은 만족하지 못함

외래키(Foreign Key)

다른 릴레이션의 기본키를 참조하는 속성 또는 속성들의 집합을 의미

관계형 데이터베이스의 제약 조건 - 무결성(Integrity)

데이터베이스에 저장된 데이터 값과 그것이 표현하는 현실 세계의 실제값이 일치하는 정확성을 의미

무결성의 종류

개체 무결성

기본 테이블의 기본키를 구성하는 어떤 속성도 NULL 값이나 중복값을 가질 수 없다.

참조 무결성

외래키 값은 NULL이거나 참조 릴레이션의 기본키 값과 동일해야 한다.

도메인 무결성

주어진 속성 값이 정의된 도메인에 속한 값이어야 한다.

사용자 정의 무결성

속성 값들이 사용자가 정의한 제약조건에 만족되어야 한다.

NULL 무결성

릴레이션의 특정 속성 값이 NULL이 될 수 없도록 한다.

고유 무결성

릴레이션의 특정 속성에 대해 각 튜플이 갖는 속성값들이 서로 달라야 한다.

키 무결성

하나의 릴레이션에는 적어도 하나의 키가 존재해야 한다.

관계 무결성

릴레이션에 어느 한 튜플의 삽입 가능 여부 또는 한 릴레이션과 다른 릴레이션의 튜플들 사이의 관계에 대한 적절성 여부를 지정한다.

데이터 무결성 강화

애플리케이션

데이터 생성, 수정, 삭제 시 무결성 조건을 검증하는 코드를 프로그램 내에 추가

데이터베이스 트리거

트리거 이벤트에 무결성 조건을 실행하는 절차형 SQL을 추가

제약 조건

데이터베이스에 제약 조건을 설정하여 무결성을 유지

관계대수 및 관계해석

관계대수

관계형 데이터베이스에서 원하는 정보와 그 정보를 검색하기 위해서 어떻게 유도하는가를 기술하는 절차적인 언어
릴레이션을 처리하기 위해 연산자와 연산규칙을 제공하며, 피연산자와 연산 결과가 모두 릴레이션
질의에 대한 해를 구하기 위해 수행해야 할 연산의 순서를 명시
관계 데이터베이스에 적용하기 위해 특별히 개발한 순수 관계 연산자와 수학적 집합 이론에서 사용하는 일반 집합 연산자가 있다.

순수 관계 연산자

Select

릴레이션에 존재하는 튜플 중에서 선택 조건을 만족하는 튜플의 부분집합을 구하여 새로운 릴레이션을 만드는 연산

Project

주어진 릴레이션에서 속성 리스트에 제시된 속성 값만을 추출하여 새로운 릴레이션을 만드는 연산
연산 결과에 중복이 발생하면 중복이 제거

Join

공통 속성을 중심으로 두 개의 릴레이션을 하나로 합쳐서 새로운 릴레이션을 만드는 연산
Join의 결과는 Cartesian Product를 수행한 다음 Select를 수행한 것과 같다.

Division

릴레이션 A, B가 있을 때 릴레이션 B의 조건에 맞는 것들만 릴레이션 A에서 분리하여 프로젝션을 하는 연산

일반 집합 연산자

수학적 집합 이론에서 사용하는 연산자

합집합 UNION

두 릴레이션에 존재하는 튜플의 합집합을 구하되, 결과로 생성된 릴레이션에서 중복되는 튜플은 제거되는 연산

교집합 INTERSECTION

두 릴레이션에 존재하는 튜플의 교집합을 구하는 연산

차집합 DIFFERENCE

두 릴레이션에 존재하는 튜플의 차집합을 구하는 연산

교차곱 CARTESIAN PRODUCT

두 릴레이션에 있는 튜플들의 순서쌍을 구하는 연산

관계해석(Relational Calculus)

관계 데이터의 연산을 표현하는 방법
수학의 Predicate Calculus(술어 해석)에 기반을 두고 관계 데이터베이스를 위해 제안
원하는 정보가 무엇이라는 것만 정의하는 비절차적 특성을 지닌다.

이상/함수적 종속

이상(Anomaly)

테이블에서 일부 속성들의 종속으로 인해 데이터의 중복이 발생하고, 이 중복(Redundancy)으로 인해 테이블 조작 시 문제가 발생하는 현상을 의미

삽입 이상(Insertion Anomaly)

테이블에 데이터를 삽입할 때 의도와는 상관없이 원하지 않은 값들로 인해 삽입할 수 없게 되는 현상

삭제 이상(Deletion Anomaly)

테이블에서 한 튜플을 삭제할 때 의도와는 상관없는 값들도 함께 삭제되는, 즉 연쇄 삭제가 발생하는 현상

갱신 이상(Update Anomaly)

테이블에서 튜플에 있는 속성 값을 갱신할 때 일부 튜플의 정보만 갱신되어 정보에 불일치성(Inconsistency)이 생기는 현상

함수적 종속(Functional Dependency)

속성 X의 값 각각에 대해 시간에 관계없이 항상 속성 Y의 값이 오직 하나만 연관되어 있을 때 Y는 X에 함수적 종속 또는 X가 Y를 함수적으로 결정한다고 하고, X->Y로 표기한다.
X->Y의 관계를 갖는 속성 X와 Y에서 X를 결정자(Determinant)라 하고, Y를 종속자(Dependent)라고 한다.

정규화(Normalization)

테이블의 속성들이 상호 종속적인 관계를 갖는 특성을 이용하여 테이블을 무손실 분해하는 과정
목적은 가능한 한 중복을 제거하여 삽입, 삭제, 갱신 이상의 발생 가능성을 줄이는 것

정규화 과정

제 1정규형

테이블 R에 속한 모든 속성의 도메인(Domain)이 원자 값(Atomic Value)만으로 되어 있는 정규형

제 2정규형

테이블 R이 제 1정규형이고, 기본키가 아닌 모든 속성이 기본키에 대하여 완전 함수적 종속을 만족하는 정규형

제 3정규형

테이블 R이 제 2정규형이고 기본키가 아닌 모든 속성이 기본키에 대해 이행적 함수적 종속을 만족하지 않는 정규형

BCNF

테이블 R에서 모든 결정자가 후보키(Candidate Key)인 정규형

제 4정규형

테이블 R에 다중 값 종속(다치종속) A->->B가 존재할 경우 R의 모든 속성이 A에 함수적 종속 관계를 만족하는 정규형

제 5정규형

테이블 R의 모든 조인 종속이 R의 후보키를 통해서만 성립되는 정규형

반정규화(Denormalization)

정규화된 데이터 모델을 의도적으로 통합, 중복, 분리하여 정규화 원칙을 위배하는 행위
데이터의 일관성 및 정합성이 저하

반정규화의 방법

테이블 통합
테이블 분할
중복 테이블 추가
중복 속성 추가

테이블 통합

두 개의 테이블이 조인되어 사용되는 경우가 많을 경우 성능 향상을 위해 아예 하나의 테이블로 만들어 사용하는 것

테이블 통합을 고려하는 경우

두 개의 테이블에서 발생하는 프로세스가 동일하게 자주 처리되는 경우
항상 두 개의 테이블을 이용하여 조회를 수행하는 경우

테이블 통합의 종류

1:1 관계 테이블 통합
1:N 관계 테이블 통합
슈퍼타입/서브타입 테이블 통합

테이블 분할

테이블을 수직 또는 수평으로 분할하는 것

수평 분할

레코드를 기준으로 테이블을 분할하는 것

수직 분할

하나의 테이블에 속성이 너무 많을 경우 속성을 기준으로 테이블을 분할하는 것

중복 테이블 추가

작업의 효율성을 향상시키기 위해 테이블을 추가하는 것

중복 테이블을 추가하는 경우

여러 테이블에서 데이터를 추출해서 사용해야 할 경우
다른 서버에 저장된 테이블을 이용해야 하는 경우

중복 테이블 추가 방법

집계 테이블의 추가
진행 테이블의 추가
특정 부분만을 포함하는 테이블의 추가

중복 속성 추가

조인해서 데이터를 처리할 때 데이터를 조회하는 경로를 단축하기 위해 자주 사용하는 속성을 하나 더 추가하는 것

중복 속성을 추가하는 경우

조인이 자주 발생하는 속성
접근 경로가 복잡한 속성
액세스의 조건으로 자주 사용되는 속성

시스템 카탈로그(System Catalog)

시스템 그 자체에 관련이 있는 다양한 객체에 관한 정보를 포함하는 시스템 데이터베이스
좁은 의미로 카탈로그를 데이터 사전이라고도 한다.

메타 데이터(Meta-Data)

시스템 카탈로그에 저장된 정보를 의미

메타 데이터의 유형

데이터베이스 객체 정보
사용자 정보
테이블의 무결성 제약 조건 정보
함수, 프로시저, 트리거 등에 대한 정보

데이터 디렉터리(Data Directory)

데이터 사전에 수록된 데이터에 접근하는 데 필요한 정보를 관리 유지하는 시스템
시스템 카탈로그는 사용자와 시스템 모두 접근할 수 있지만 데이터 디렉터리는 시스템만 접근할 수 있다.

데이터베이스 저장 공간 설계

테이블(Table)
컬럼(Column)
테이블스페이스(Tablespace): 테이블이 저장되는 논리적인 영역

테이블 종류

일반 테이블
클러스티드 인덱스 테이블(Clusted Index Table): 기본키나 인덱스키의 순서에 따라 데이터가 저장되는 테이블
파티셔닝 테이블(Partitioning Table): 대용량의 테이블을 작은 논리적 단위인 파티션(Partition)으로 나눈 테이블
외부 테이블(External Table): 데이터베이스에서 일반 테이블처럼 이용할 수 있는 외부 파일
임시 테이블(Temporary Table): 트랜잭션이나 세션별로 데이터를 저장하고 처리할 수 있는 테이블

트랜잭션(Transaction)

데이터베이스에서 하나의 논리적 기능을 수행하기 위한 작업의 단위 또는 한꺼번에 모두 수행되어야 할 일련의 연산들을 의미

트랜잭션의 특성

Atomicity(원자성)

트랜잭션의 연산은 데이터베이스에 모두 반영되도록 완료(Commit)되든지 아니면 전혀 반영되지 않도록 복구(Rollback)되어야 한다.

Consistency(일관성)

트랜잭션이 그 실행을 성공적으로 완료하면 언제나 일관성 있는 데이터베이스 상태로 변환한다.

Isolation(독립성)

둘 이상의 트랜잭션이 동시에 병행 실행되는 경우 어느 하나의 트랜잭션 실행 중에 다른 트랜잭션의 연산이 끼어들 수 없음

Durability(영속성, 지속성)

성공적으로 완료된 트랜잭션의 결과는 시스템이 고장나더라도 영구적으로 반영되어야 한다.

CRUD 분석

프로세스와 테이블 간에 CRUD 매트릭스를 만들어서 트랜잭션을 분석하는 것

CRUD 매트릭스

2차원 형태의 표로서, 행(Row)에는 프로세스를, 열(Column)에는 테이블을, 행과 열이 만나는 위치에는 프로세스가 테이블에 발생시키는 변화를 표시하여 프로세스와 데이터 간의 관계를 분석하는 분석표

트랜잭션 분석

CRUD 매트릭스를 기반으로 테이블에 발생하는 트랜잭션 양을 분석하여 테이블에 저장되는 데이터의 양을 유추하고 이를 근거로 DB의 용량 산정 및 구조의 최적화를 목적
트랜잭션 분석서: 단위 프로세스와 CRUD 매트릭스를 이용하여 작성

인덱스(Index)

데이터 레코드를 빠르게 접근하기 위해 <키 값, 포인터> 쌍으로 구성되는 데이터 구조

인덱스의 종류

트리 기반 인덱스: 인덱스를 저장하는 블록들이 트리 구조를 이루고 있는 것
비트맵 인덱스: 인덱스 컬럼의 데이터를 Bit값으로 변환하여 인덱스키로 사용하는 방법
함수 기반 인덱스: 컬럼의 값 대신 컬럼에 특정 함수나 수식을 적용하여 산출된 값을 사용하는 것
비트맵 조인 인덱스: 다수의 조인된 객체로 구성된 인덱스
도메인 인덱스: 개발자가 필요한 인덱스를 직접 만들어 사용하는 것

클러스터드/넌클러스터드 인덱스

클러스터드 인덱스(Clusterd Index)

인덱스 키의 순서에 따라 데이터가 정렬되어 저장되는 방식
실제 데이터가 순서대로 저장되어 있어 인덱스를 검색하지 않아도 원하는 데이터를 빠르게 찾을 수 있음

넌클러스터드 인덱스(Non-Clusterd Index)

인덱스의 키 값만 정렬되어 있고 실제 데이터는 정렬되지 않는 방식
데이터의 삽입. 삭제 발생 시 순서를 유지하기 위해 데이터를 재정렬해야 함

뷰/클러스터

뷰(View)

하나 이상의 기본 테이블로부터 유도된 가상 테이블

뷰의 장점

논리적 데이터 독립성을 제공
사용자의 데이터 관리를 간단하게 함
접근 제어를 통한 자동 보안이 제공

뷰의 단점

독립적인 인덱스를 가질 수 없음
뷰의 정의를 변경할 수 없음
뷰로 구성된 내용에 대한 삽입, 삭제, 갱신 연산에 제약이 따름

클러스터(Cluster)

동일한 성격의 데이터를 동일한 데이터 블록에 저장하는 물리적 저장 방법
처리 범위가 넓은 경우에는 단일 테이블 클러스터링을, 조인이 많이 발생하는 경우에는 다중 테이블 클러스터링을 사용

파티션(Partition)

대용량의 테이블이나 인덱스를 작은 논리적 단위인 파티션으로 나누는 것

파티션의 장점

액세스 범위를 줄여 쿼리 성능이 향상
데이터가 분산되어 저장되므로 디스크의 성능이 향상
파티션별로 백업 및 복구를 수행하므로 속도가 빠름
시스템 장애 시 데이터 손상 정도 최소화

파티션의 단점

세심한 관리가 요구
테이블간 조인에 대한 비용 증가
용량이 작은 테이블에 파티셔닝을 수행하면 오히려 성능이 저하

파티션의 종류

범위 분할(Range Partitioning)

지정된 열의 값을 기준으로 분할

해시 분할(Hash Partitioning)

해시 함수를 적용한 결과 값에 따라 데이터를 분할
특정 파티션에 데이터가 집중되는 범위 분할의 단점을 보완한 것으로, 데이터를 고르게 분산할 때 유용
데이터가 고른 컬럼에 효과적

조합 분할(Composite Partitioning)

범위 분할로 분할한 다음 해시 함수를 적용하여 다시 분할하는 방식

분산 데이터베이스 설계

논리적으로는 하나의 시스템에 속하지만 물리적으로는 네트워크를 통해 연결된 여러 개의 사이트에 분산된 데이터베이스를 말한다.
애플리케이션이나 사용자가 분산되어 저장된 데이터에 접근하게 하는 것을 목적으로 한다.

분산 데이터베이스의 목표

위치 투명성(Location Transparency)

액세스하려는 데이터베이스의 실제 위치를 알 필요 없이 단지 데이터베이스의 논리적인 명칭만으로 액세스할 수 있다.

중복 투명성(Replication Transparency)

동일 데이터가 여러 곳에 중복되어 있더라도 사용자는 마치 하나의 데이터만 존재하는 것처럼 사용한다.

병행 투명성(Concurrency Transparency)

분산 데이터베이스와 관련된 다수의 트랜잭션들이 동시에 실현되더라도 그 트랜잭션의 결과는 영향을 받지 않는다.

장애 투명성(Failure Transparency)

장애에도 불구하고 트랜잭션을 정확하게 처리한다.

분산 설계 방법

테이블 위치 분산
분할(수평, 수직)
할당: 동일한 분할을 여러 개의 서버에 생성

데이터베이스 이중화/서버 클러스터링

데이터베이스 이중화(Database Replication)

동일한 데이터베이스를 복제하여 관리하는 것

데이터베이스 이중화의 분류

Eager 기법

트랜잭션수행 중 데이터 변경이 발생하면 이중화된 모든 데이터베이스에 즉시 전달하여 변경 내용이 즉시 적용되도록 한다.

Lazy 기법

트랜잭션의 수행이 종료되면 변경 사실을 새로운 트랜잭션에 작성하여 각 데이터베이스에 전달한다.

데이터베이스 이중화 구성 방법

활동-대기(Active-Standby)

한 DB가 활성 상태로 서비스하고 있으면 다른 DB는 대기하고 있다가 활성 DB에 장애가 발생하면 대기 상태에 있던 DB가 자동으로 모든 서비스를 대신 수행

활동-활동(Active-Active)

두 개의 DB가 서로 다른 서비스를 제공하다가 둘 중 한쪽 DB에 문제가 발생하면 나머지 다른 DB가 서비스를 제공

클러스터링(Clustering)

두 대 이상의 서버를 하나의 서버처럼 운영하는 기술

클러스터링 종류

고가용성 클러스터링: 하나의 서버에 장애가 발생하면 다른 노드(서버)가 받아 처리하여 서비스 중단을 방지하는 방식
병렬 처리 클러스터링: 하나의 작업을 여러 개의 서버에서 분산하여 처리하는 방식

RTO/RPO

RTO(Recovery Time Objective, 목표 복구 시간)

비상사태 또는 업무 중단 시점으로부터 복구되어 가동될 떄까지의 소요 시간을 의미

RPO(Recovery Point Objective, 목표 복구 시점)

비상사태 또는 업무 중단 시점으로부터 데이터를 복구할 수 있는 기준점을 의미

데이터베이스 보안

권한이 없는 사용자가 액세스하는 것을 금지하기 위해 사용되는 기술

암호화(Encryption)

데이터를 보낼 때 송신자가 지정한 수신자 이외에는 그 내용을 알 수 없도록 평문을 암호문으로 변환하는 것

복호화(Decryption)

암호문을 원래의 평문으로 바꾸는 과정

암호화 기법

개인키 암호 방식(Private Key Encryption)
공개키 암호 방식(Public Key Encryption)

접근통제

데이터가 저장된 객체와 이를 사용하려는 주체 사이의 정보 흐름을 제한하는 것

접근통제 3요소

접근통제 정책
접근통제 메커니즘
접근통제 보안모델

접근통제 기술

임의 접근통제(DAC, Discretionary Access Control)

데이터에 접근하는 사용자의 신원에 따라 접근 권한을 부여하는 방식

강제 접근통제(MAC, Mandatory Access Control)

주체와 객체의 등급을 비교하여 접근 권한을 부여하는 방식

역할기반 접근통제(RBAC, Role Based Access Control)

사용자의 역할에 따라 접근 권한을 부여하는 방식

접근통제 정책

어떤 주체가 언제, 어디서, 어떤 객체에게. 어떤 행위에 대한 허용 여부를 정의하는 것

접근통제 정책의 종류

신분 기반 정책
규칙 기반 정책
역할 기반 정책

접근통제 매커니즘

정의된 접근통제 정책을 구현하는 기술적인 방법

접근통제 보안 모델

보안 정책을 구현하기 위한 정형화된 모델

접근통제 보안 모델의 종류

기밀성 모델

군사적인 목적으로 개발된 최초의 수학적 모델

무결성 모델

기밀성 모델에서 발생하는 불법적인 정보 변경을 방지하기 위해 무결성을 기반으로 개발된 모델

접근통제 모델

접근통제 메커니즘을 보안 모델로 발전시킨 것

접근통제 조건

접근통제 메커니즘의 취약점을 보완하기 위해 접근통제 정책에 부가하여 적용할 수 있는 조건
값 종속 통제, 다중 사용자 통제, 컨텍스트 기반 통제

감사 추적

사용자나 애플리케이션이 데이터베이스에 접근하여 수행한 모든 활동을 기록하는 기능

데이터베이스 백업

전산 장비의 장애에 대비하여 데이터베이스에 저장된 데이터를 보호하고 복구하기 위한 작업

로그 파일

데이터베이스의 상태 변화를 시간의 흐름에 따라 모두 기록한 파일

데이터베이스 복구 알고리즘

NO-UNDO/REDO

데이터베이스 버퍼의 내용을 비동기적으로 갱신한 경우의 복구 알고리즘

UNDO/NO-REDO

데이터베이스 버퍼의 내용을 동기적으로 갱신한 경우의 복구 알고리즘

UNDO/REDO

데이터베이스 버퍼의 내용을 동기/비동기적으로 갱신한 경우의 복구 알고리즘

NO-UNDO/NO-REDO

데이터베이스 버퍼의 내용을 동기적으로 저장 매체에 기록하지만 데이터베이스와는 다른 영역에 기록한 경우의 복구 알고리즘

백업 종류

운영체제를 이용하는 물리 백업과 DBMS 유틸리티를 이용하는 논리 백업

물리 백업

데이터베이스 파일을 백업하는 방법

논리 백업

DB 내의 논리적 객체들를 백업하는 방법

스토리지(Storage)

대용량의 데이터를 저장하기 위해 서버와 저장장치를 연결하는 기술

DAS(Direct Attached Storage)

서버와 저장장치를 전용 케이블로 직접 연결하는 방식

NAS(Network Attached Storage)

서버와 저장장치를 네트워크를 통해 연결하는 방식

SAN(Storage Area Network)

서버와 저장장치를 연결하는 전용 네트워크를 별도로 구성하는 방식

논리 데이터 모델의 변환

엔티티를 테이블로 변환

논리 데이터 모델에서 정의된 엔티티를 물리 데이터 모델의 테이블로 변환하는 것

슈퍼타입/서브타입을 테이블로 변환

슈퍼타입/서브타입은 논리 데이터 모델에서 이용되는 형태이므로 물리 데이터 모델을 설계할 때는 슈퍼타입/서브타입을 테이블로 변환해야 한다.

슈퍼타입 기준 테이블 변환

서브타입을 슈퍼타입에 통합하여 하나의 테이블로 만드는 것
서브타입에 속성이나 관계가 적을 경우에 적용
하나로 통합된 테이블에는 서브타입의 모든 속성이 포함

서브타입 기준 테이블 변환

슈퍼타입 속성들을 각각의 서브타입에 추가하여 서브타입들을 개별적인 테이블로 만드는 것
서브타입에 속성이나 관계가 많이 포함된 경우 적용

개별타입 기준 테이블 변환

슈퍼타입과 서브타입들을 각각의 개별적인 테이블로 변환하는것
슈퍼타입과 서브타입 테이블들 사이에는 각각 1:1 관계가 형성

속성을 컬럼으로 변환

일반 속성 변환
Primary UID를 기본키로 변환
Secondary UID를 유니크키로 변환

관계를 외래키로 변환

논리 데이터 모델에서 정의된 관계는 기본키와 이를 참조하는 외래키로 변환

물리 데이터 모델 품질 검토

목적은 데이터베이스의 성능 향상과 오류 예방

물리 데이터 모델 품질 기준

정확성
완전성
준거성
최신성
일관성
활용성

물리 데이터 모델 품질 검토 항목

물리 데이터 모델의 특성을 반영한 품질 기준을 작성한 후 이를 기반으로 작성

자료 구조

자료를 기억장치 공간 내에 저장하는 방법과 자료 간의 관계, 처리 방법 등을 연구 분석하는 것

자료 구조의 분류

선형 구조(Linear Structure)

배열
선형 리스트 - 연속 리스트(Contiguous List), 연결 리스트(Linked List)
스택
큐
데크

비선형 구조(Non-Linear Structure)

트리
그래프

배열(Array)

크기와 형(Type)이 동일한 자료들이 순서대로 나욜된 자료의 집합

연속 리스트(Contiguous List)

연속되는 기억장소에 저장되는 자료 구조

연결 리스트(Linked List)

자료들을 임의의 기억공간에 기억시키되. 노드의 포인터 부분을 이용하여 서로 연결시킨 자료 구조

스택(Stack)

리스트의 한쪽 끝으로만 자료의 삽입, 삭제 작업이 이루어지는 자료 구조

큐(Queue)

리스트의 한쪽에서는 삽입 작업이 이루어지고 다른 한쪽에서는 삭제 작업이 이루어지는 자료 구조

그래프(Graph)

정점(Vertex)와 간선(Edge)의 두 집합으로 이루어지는 자료 구조
사이클이 없는 그래프를 트리라고 한다.

방향/무방향 그래프의 최대 간선 수

방향 그래프: n(n-1)
무방향 그래프: n(n-1)/2

트리(Tree)

트리는 정점(Node, 노드)과 선분(Branch, 가지)을 이용하여 사이클을 이루지 않도록 구성한 그래프(Graph)의 특수한 형태이다.

트리 관련 용어

노드(Node): 트리의 기본 요소로서 자료 항복과 다른 항복에 대한 가지(Branch)를 합친 것
근 노드(Root Node): 트리의 맨 위에 있는 노드
디그리(Degree, 차수): 각 노드에서 뻗어나온 가지의 수
단말 노드(Terminal Node) = 잎 노드(Leaf Node): 자식이 하나도 없는 노드, 즉 Degree가 0인 노드
비단말 노드(Non-Terminal Node): 자식이 하나라도 있는 노드
조상 노드(Ancestors Node): 임의의 노드에서 근 노드에 이르는 경로상에 있는 노드들
자식 노드(Son Node): 어떤 노드에 연결된 다음 레벨의 노드들
부모 노드(Parent Node): 어떤 노드에 연결된 이전 레벨의 노드들
형제 노드(Brother Node, Sibling): 동일한 부모를 갖는 노드들
Level: 근 노드의 Level을 1로 가정한 후 어떤 Level이 L이면 자식 노드는 L+1
깊이(Depth, Height): Tree에서 노드가 가질 수 있는 최대의 레벨
숲(Forest): 여러 개의 트리가 모여 있는 것
트리의 디그리: 노드들의 디그리 중에서 가장 많은 수

이진 트리

차수(Degree)가 2 이하인 노드들로 구성된 트리

트리의 운행법

트리를 구성하는 각 노드들을 찾아가는 방법을 운행법(Traversal)이라고 한다.
이진 트리의 운행법: Preorder 운행, Inorder 운행, Postorder 운행

Preorder 운행법

이진 트리를 Root->Left->Right 순으로 운행하며 노드를 찾아가는 과정

Inorder 운행법

이진 트리를 Left->Root->Right 순으로 운행하며 노드를 찾아가는 과정

Postorder 운행법

이진 트리를 Left->Right->Root 순으로 운행하며 노드를 찾아가는 방법

수식의 표기법

이진 트리를 만들어진 수식을 인오더, 프리오더, 포스트오더로 운행하면 각각 중위(Infix), 전위(Prefix), 후위(Postfix) 표기법이 된다.

정렬(Sort)

삽입 정렬(Insertion Sort)

이미 순서화된 파일에 새로운 하나의 레코드를 순서에 맞게 삽입시켜 정렬하는 방식
평균과 최악 모두 수행 시간 복잡도는 O(n^2)

선택 정렬(Selection Sort)

n개의 레코드 중에서 최소값을 찾아 첫 번째 레코드 위치에 놓고, 나머지 (n-1)개 중에서 다시 최소값을 찾아 두 번째 레코드 위치에 놓는 방식을 반복하여 정렬하는 방식
평균과 최악 모두 수행 시간 복잡도는 O(n^2)

버블 정렬(Bubble Sort)

인접한 두 개의 레코드 키 값을 비교하여 그 크기에 따라 레코드 위치를 서로 교환하는 정렬 방식
평균과 최악 모두 수행 시간 복잡도는 O(n^2)

쉘 정렬(Shell Sort)

어떤 매개변수의 값으로 서브파일을 구성하고, 각 서브파일을 Insertion 정렬 방식으로 순서 배열하는 과정을 반복하는 정렬 방식
평균 수행 시간 복잡도는 O(n^1.5)이고, 최악의 수행 시간 복잡도는 O(n^2)

퀵 정렬(Quick Sort)

키를 기준으로 작은 값은 왼쪽, 큰 값은 오른쪽 서브 파일에 분해시키는 과정을 반복하는 정렬 방식
평균 수행 시간 복잡도는 O( $nlog{_2}{n}$ )이고, 최악의 수행시간 복잡도는 O(n^2)이다.

힙 정렬(Heap Sort)

전이진 트리(Complete Binary Tree)를 이용한 정렬 방식이다.
평균과 최악 모두 시간 복잡도는 O( $nlog{_2}{n}$ )

2-Way 합병 정렬(Merge Sort)

이미 정렬되어 있는 두 개의 파일을 한 개의 파일로 합병하는 정렬 방식
평균과 최악 모두 시간 복잡도는 O( $nlog{_2}{n}$ )

기수 정렬(Radix Sort) = Bucket Sort

Queue를 이용하여 자릿수(Digit)별로 정렬하는 방식
평균과 최악 모두 시간 복잡도는 O(dn)

Minseol

귀여운 설이에양

이전 포스트

정보처리기사 실기 - 요구사항 확인

다음 포스트