데이터 입출력 구현

정다윤·2023년 4월 13일

정보처리기사

목록 보기

3/4

데이터 모델링 절차를 서술하시오.

요구사항 분석
개념적 데이터 모델링
논리적데이터 모델링
물리적 데이터 모델링

데이터 모델링 절차
개논물 : 개념적 데이터 모델/ 논리적 데이터 모델/ 물리적 데이터 모델

릴레이션 A,B가 있을 때 릴레이션 B 조건에 맞는 것들만 릴레이션 A에서 튜플을 꺼내 프로젝션 하는 관계 대수는 무엇인가?

디비젼 %

셀렉트(Select)	프로젝트(Project)	조인(Join)	디비젼(Division)
릴레이션 R에서 조건을 만족하는 튜플반환	릴레이션 R에서 주어진 속성들의 값으로만 구성된 튜플 반환	공통 속성을 이용해 R과 S의 튜플들을 연결해 만들어진 튜플 반환	릴레이션 S의 모든 튜플과 관련 있는 R의 튜플 반환

이상현상의 종류 3가지를 쓰시오.

삽입 이상, 삭제 이상, 갱신 이상

비 정규화(De-Normalization)의 개념을 쓰시오.

정규화된 엔터티, 속성, 관계에 대해 성능 향상과 개발 운영의 단순화를 위해 중복, 통합, 분리 등을 수행하는 데이터 모델링 기법이다.

다음 괄호 안에 들어갈 가장 적합한 용어를 쓰시오.

논리 데이터 모델링의 속성은 (1)속성, (2)로 구성된다.
1: 개체 2: 관계

논리 데이터 모델릴
개속관 : 개체/속성/관계

다음에서 설명하는 데이터 모델을 쓰시오.

현실 세계에 존재하는 데이터와 그들 간의 관계를 사람이 이해할 수 있는 형태로 명확하게 표현하기 위해서 가장 널리 사용되고 있는 모델이다.
요구사항으로부터 얻어낸 정보들을 개체, 속성, 관계로 기술한 모델이다.

개체-관계(E-R)모델

개체-관계(E-R) 다이어그램 기호이다.

다음에서 설명하는 데이터 기법을 쓰시오.

관계형 데이터 모델에서 데이터의 중복성을 제거하여 이상 현상을 방지하고, 데이터의 일관성과 정확성을 유지하기 위해 무손실 분해하는 과정이다.

정규화

데이터베이스 이상 현상을 서술하시오.

데이터의 중복성으로 인해 릴레이션을 조작할 때 발생하는 비합리적 현상이다.

정규화 단계 중 BNCF의 개념을 간략히 서술하시오.

모든 결정자가 후보키가 되도록 하여 결정자 함수 종속성을 제거하는 단계이다.

다음은 모델링 기법에 대한 설명이다. 괄호 안에 들어갈 개념을 쓰시오.

()은/는 논리모델을 적용하고자 하는 기술에 맞도록 상세화해 가는 과정이다.

물리 데이터 모델링

다음은 인덱스 적용 기준과 관련된 수식이다. 어떤 개념에 대한 설명인지 쓰시오.

( 1 / 컬럼 값의 종류 ) x 100
( 컬럼 값의 평균 Row 수 / 테이블의 총 Row 수 ) x 100

분포도

다음은 인덱스 컬럼 선정 기준이다. 괄호 안에 들어갈 용어를 쓰시오.

(1)이/가 좋은 칼럼은 단독적으로 생산한다.
자주 조합되어 사용되는 컬럼은 (2)로 생성한다.

분포도 2. 결합 인덱스

관계형 데이터베이스의 인덱스 개념을 간략히 약술하시오.

검색 연산의 최적화를 위해 데이터베이스 내 열에 대한 정보를 구성한 데이터 구조이다.
전체 데이터의 검색없이 필요한 정보를 신속하게 조회가 가능하게 하는 데이터 구조이다.

다음이 설명하는 파티셔닝 기법은 무엇인지 쓰시오.

연속적인 숫자나 날짜를 기준으로 하는 파티셔닝 기법이다.
손쉬운 관리 기법을 제공하여 관리 시간의 단축이 가능하다.

레인지 파티셔닝	해시 파티셔닝	리스트 파티셔닝	컴포지트 파티셔닝
연속적인 숫자나 날짜를 기준으로 하는 파티셔닝 기법, 손쉬운 관리 기법을 제공하여 관리 시간의 단축이 가능	파티션 키의 해시 함수 값에 의한 파티셔닝 기법, 균등한 데이터 분할이 가능하고 질의 성능이 향상 가능	특정 파티션에 저장될 데이터에 대한 명시적 제어가 가능한 파티셔닝 기법, 분포도가 비슷하고 데이터가 많은 SQL에서 컬럼의 조건이 많이 들어오는 경우 유용	법위분할에 이후 해시 함수를 적용하여 재분할 하는 파티셔닝 기법, 큰 파티션에 대한 I/O요청을 여러 파티션으로 분산 할 수 있음

데이터 마이닝 개념에 관해서 서술하시오.

대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 기술이다.

데이터베이스의 개념을 간략히 서술하시오.

다수의 인원, 시스템 또는 프로그램이 사용할 목적으로 통합하여 관리되는 데이터의 집합이다.

다음은 데이터베이스 종류에 대한 설명이다. 괄호 안에 공통으로 들어갈 가장 적합한 용어를 쓰시오.

()는 데이터를 상하 종속적인 관계로 관리하는 데이터베이스이다.
()는 데이터에 대한접근 속도가 빠르지만, 종속적인 구조로 인하여 변화하는 데이터 구조에 유연하게 대응이 어렵다.

계층형 데이터베이스 관리시스템 (HDBMS)

다음은 DBMS유형에 대한 설명이다. 다음 괄호 안에 들어갈 가자 적합한 용어를 쓰시오.

(1) : 키 기반 Get/Put/Delete 제공, 메모리 기반에서 성능 우선 시스템 및 빅데이터 처리 가능 DBMS, Unique한 키에 하나의 값을 가지고 있는 형태 ex) Redis, DynamoDB
(2) : 값의 데이터 타입이 문서라는 타입을 사용하는 DBMS, 문서 타입은 XML, JSON과 같이 구조화된 데이터 타입으로, 복잡한 계층 구조 표현 가능 ex) MongoDB, Couchbase
(3) : 시맨틱 웹과 온톨로지 분야에서 활용되는 그래프로 데이터를 표현하는 DBMS, 노드와 에지로 특징되는 요소 특화, 노드 간 관계를 구조화하여 저장 ex)Neo4j, AllegroGraph

1: 키-값(Key-Value) DBMS 2: 문서저장(Document Store) DBMS 3: 그래프(Graph) DBMS

DBMS 특징

데이터 무결성	데이터 일관성	데이터 회복성	데이터 보안성	데이터 효율성
부적절한 자료가 입력되어 동일한 내용에 대하여 서로 다른 데이터가 저장되는 것을 허용하지 않는다는 성질	삽입, 삭제, 갱신, 생성 후에도 저장된 데이터가 변함없이 일정	장애가 발생하였을 시 특정 상태로 복구되어야 하는 성질	불법적인 노출, 변경, 손실로부터 보호되어야하는 성질	응답 시간, 저장 공간 활용 등이 최적화 되어 사용자, 소프트웨어, 시스템 등의 요구 조건을 만족 시켜야 하는 성질

ERD의 개념을 간략히 서술하시오.

업무 분석의 결과로 도출된 실제(개체)와 개체간의 관계를 도식화한 다이어그램이다.

ER 모델요소

개체	속성
사물 또는 사건으로 정의, ERD에서 사각형으로 표시	개체가 가지고 있는 요소 또는 성질, ERD에서 타원형으로 표시

괄호 안에 들어갈 용어를 쓰시오.

빅데이터 기술 중에 (1)은 대용량 데이터의 집합을 처리하는 응용 프로그램에 적합하도록 설계된 분산 파일 시스템이다.
구글에서 대용량 데이터 처리 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작하여 2004년에 발표한 소프트웨어 프레임워크는 (2)이다

1 : HDFS(Hadoop Distributed File System), 2 : 맵 리듀스 (Map Reduce)

빅데이터의 특성

데이터의 양	데이터의 다양성	데이터의 속도
페타바이트 수준의 대규모 데이터, 빅데이터 분석 규모에 관련된 특성, 디지털 정보량이 기하급수적으로 폭증하다는 것을 의미	정형, 비정형, 반정형의 데이터, 빅데티어 자원 유형에 관련된 특성	빠르게 증가하고 수집되며, 처리되는 데이터, 빅데이터 수집, 분석, 활용 속도와 관련된 특성, 가치 있는 정보 활용을 위해 실시간 분석이 중요해지는 것을 의미

NoSQL(Not Only SQL)의 개념에 대해 서술하시오.

NoSQL은 전통적인 RDBMS와 다른 DBMS를 지칭하기 위한 용어로 데이터 저장에 고정된 테이블 스키마가 필요하지 않고 조인(Join)연산을 사용할 수 없으며, 수평적으로 화장이 가능한 DBMS다.

NoSQL 특성인 BASE 에 대한 설명

Baseically Available	Soft-State	Eventually Consistency
언제든지 데이터는 접근할 수 있어야 한다는 속성, 분산 시스템 이기 때문에 항상 가용성 중시	노드의 상태는 내부에 포함된 정보에 의해 결정되는 것이 아니라 외부에서 전송된 정보를 통해 결정되는 속성, 특정 시점에서는 데이터의 일관성이 보장되지 않음	일정 시간이 지나면 데이터의 일관성이 유지되는 속성, 일관성을 중시하고 지향

Key 안에 (Column, Value) 조합으로 된 여러 개의 필드를 갖는 NoSQL의 유형에 대해 쓰시오.

Column Family Data Store

온톨로지(Ontology)의 개념에 대해 서술하시오.

온톨로지는 실세계에 존재하는 모든 개념과 개념들의 속성, 그리고 개념 간의 관계 정보를 컴퓨터가 이해할 수 있도록 서술해 놓은 지식베이스이다.

데이터 마이닝 주요 기법

분류 규칙	연관 규칙	연속 규칙
과거 데이터로부터 특성을 찾아내어 분류 모형을 만들어 이를 토대로 새로운 레코드의 결과 값을 에측하는 기법, 마케팅, 고객신용 평가 모형에 활용 ex) 우수 고객의 분류모형구축으로 마케팅 활용	데이터 안에 존재하는 항목들 간의 종속 관계를 찾아내는 기법, 제품이나 서비스의 교차판매, 매장 진열, 사기 적발 등 다양한 분야에서 활용 ex) 넥타이 구매고객의 50% 이상이 셔츠를 구매한다는 정보 분석을 통해 매장의 상품 진열	연관 규칙에 시간 관련 정보가 포함된 형태의 기법, 개인별 트랜잭션 이력 데이터를 시계열적으로 분석하여 트랜잭션의 향후 발생 가능성 예측 ex) A 품목을 구매한 회원이 B 품목을 구매할 확률은 75%

텍스트 마이닝(Text mining)의 개념에 대해 서술하시오.

텍스트 마이닝은 대량의 텍스트 데이터로부터 패턴 또는 관계를 추출하여 의미있는 정보를 찾아내는 기법이다.

DBMS(DataBase Management System)의 개념을 약술하시오.

DBMS는 데이터 관리의 복잡성을 해결하는 동시에 데이터 추가, 변경, 검색, 삭제 및 백업, 복구, 보안등의 기능을 지원하는 소프트웨어이다.

정다윤

이전 포스트

화면설계

다음 포스트