구분 | 스타 스키마 | 스노우 플레이크 스키마 |
---|---|---|
특징 | - 조인 스키마(Join schema)라고도 하며,테이블 웨어하우스의 스키마 중 가장 단순한 스키마이다. - 사실 테이블(Fact Table)은 제3정규형으로 모델링하며, 차원테이블(Dimensional Table)들은 제2정규형으로 모델링한다. | - 스타 스키마의 차원 테이블을 제3정규형으로 정규화한 형태의 스키마이다. |
장점 | - 복잡도가 낮아서 이해하기 쉽고, 쿼리 작성이 용이하며 조인 테이블 개수가 적다. | - 데이터의 중복이 제거돼 데이터 적재 시 시간이 단축된다. |
단점 | - 데이터 중복으로 인해 데이터를 적재할 때 상대적으로 많은 시간이 소요된다. | - 복잡성이 증가하므로 조인 테이블의 개수가 증가하고 쿼리작성의 난이도가 높아진다. |
구분 | 무공유 디스크 | 공유 디스크 |
---|---|---|
특징 | - 각 인스턴스나 노드는 완전히 분리된 데이터의 서브 집합에 대한 소유권을 가지고 있으며, 각 데이터는 소유권을 갖는 인스턴스가 처리한다. | - 모든 데이터베이스 인스턴스 노드들은 데이터 파일을 논리적으로 공유하며, 각 인스턴스는 모든 데이터에 접근할 수 있다. * Oracle RAC(Real Application Cluster)는 대표적인 공유 디스크 방식이다. |
장점 | - 노드 확장에 제한이 없다. | - 높은 수준의 폴트톨러런스(fault-tolerance)를 제공한다. |
단점 | - 장애 발생을 대비해 별도의 폴트톨러런스(fault-tolerance)를 구성해야 한다. | - 클러스터가 커지면 디스크 영역에서 병목 현상이 발생한다. |
구분 | 내용 |
---|---|
Memory ballooning | - 예약된 메모리보다 더 많은 메모리를 사용하는 가상 머신의 메모리 영역을 빈값으로 강제로 채워 가상머신 운영체제가 자체적으로 swapping하도록 한다. |
Transparent page sharing | * 각 가상머신에 할당된 메모리 중 동일한 내용을 담고 있는 페이지는 물리적인 메모리 영역에 하나만 존재시키고 모든 가상머신이 공유하도록 한다. |
Memory Overcommitment | * 2GB 메모리를 가진 물리적 장비에 512MB를 Minimum reserverd를 가질 수 있는 가상 머신 5개를 수행할 수 있으나, 성능저하를 유발할 수 있으므로 권장하지 않는다. |
개념 및 특징
구분 | EAI (Enterprise Application Integration) | ESB (Enterprise Serviece Bus) |
---|---|---|
기능 | 미들웨어(Hub)를 이용하여 비즈니스 로직을 중심으로 Application을 통합, 연계 | 미들웨어(Bus)를 이용하여 서비스 중심으로 시스템을 유기적으로 연계 |
통합관점 | Application | Process |
로직연동 | 개별 Application에서 수행 | ESB에서 수행 |
아키텍처 | 단일 접점인 허브 시스템을 이용한 중앙집중식 연결구조 | 버스(Bus) 형태의 느슨하고 유연한 연결구조 |
다음 중 EAI(Enterprise Application Integration)의 활용 효과로 옳지 않은 것은?
① 향후 정보 시스템 개발 유지 및 보수비용 절감 도모
② 다양한 조건에 의한 CDC 매커니즘 구현 가능
③ 협력사, 파트너, 고객과의 상호 협력 프로세스 연계 발전 기반 확보
④ 그룹 및 지주 회사 계열들 간 상호 관련 데이터 동기화 등을 위한 데이터 표준화 기반 확보
정답 ②
해설
EAI의 활용 효과
- 정보 시스템 개발 및 유지 보수비용 절감
- 기업 정보 시스템의 지속적 발전 기반 확보
- 협력사, 파트너, 고객과의 상호 협력 프로세스 연계
- 웹 서비스 등 인터넷 비즈니스를 위한 기본 토대 확립
- 지역적으로 분리되어 있는 정보 시스템들 간의 데이터 동기화
- 그룹 및 지주 회사 계열들 간 상호 관련 데이터 동기화 등을 위한 데이터 표준화 기반 확보
CDC(Change Data Capture) 구현 방식에 대한 설명으로 옳지 않은 것은?
① Status on Rows는 타임스탬프 및 버전 넘버 기법에 대한 보완 용도로 활용될 수는 없다.
② Event Programming은 어어플리케이션 개발 부담과 복잡도를 증가시키나, 다양한 조건에 의한 CDC 매커니즘을 구현할 수 있는 기법이다.
③ Log Scanner on Database 기법을 이용하면 트랜잭션 무결성에 대한 영향도를 최사ㅗ화할 수 있다.
④ Version Numbers on Rows를 활용하면 일반적으로 레코드들의 최신 버전을 기록, 관리하는 참조 테이블을 함께 운영한다.
정답 ①
해설
Status on Rows는~시간에 ~상태였다
는 것을 Row마다 기록하는 것이므로 타임스탬프 및 버전 넘버 기법에 대한 보완 용도로 활용될 수 있다.
다음 중 비정형 데이터 처리 기술에 대한 설명으로 부적절한 것은?
① 데이터 연동에 있어서 관계형 DB에서 하둡으로 데이터를 옮기는 것은 가능하지만 하둡에서 관계형 DB로 데이터를 옮기는 것은 불가능하다.
② YARN은 맵리듀스의 단점을 극복하기 위해 시작되었고, 분산 어플리케이션을 구현하기 위한 차원 관리 프레임워크를 지원한다.
③ 워크플로우 관리에는 Oozie, Azkaban 등의 기술이 사용된다.
④ Flume-NG, Kafka 등은 대표적인 비정형 데이터 수집 기술이다.
정답 ①
해설
데이터 연동(Sqoop)에 있어서 관계형 DB에서 하둡으로 데이터를 옮기는 것(Import)도 가능하고, 하둡에서 관계형 DB로 데이터를 옮기는 것(Export)도 가능하다.
CDC(Change Data Capture)의 구현 기법 중 Log Scanner on Database 방식의 특징 중 옳지 않은 것은?
① 데이터베이스에 대한 영향도 최소화
② 변경 식별 지연시간 최소화
③ 시스템 관리 복잡도를 증가
④ 데이터베이스 스키마 변경 불필요
정답 ③
해설
Log Scanner on Database 방식의 특징(장점)
- 데이터베이스와 사용 어플리케이션에 대한 영향도 최소화
- 변경 식별 지연시간 최소화
- 트랜잭션 무결성에 대한 영향도 최소화
- 데이터베이스 스키마 변경 불필요
다음 중 하둡 에코시스템의 구성요소와 그에 해당하는 설명을 짝지은 것으로 옳지 않은 것은?
① Oozie는 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템이다.
② Hive는 하둡 기반의 데이터 웨어하우스이며, 테이블 단위의 데이터 저장과 SQL 쿼리를 지원한다.
③ Chukwa는 분산 환영에서 생성되는 데이터를 HDFS에 안정적으로 저장시키는 플랫폼이다.
④ Scribe는 Sqoop과 같은 대용량 데이터 전송 솔루션으로 하둡에서 데이터를 가져오기 위한 SQL을 지정할 수 있다.
정답 ④
해설
④는 Hiho에 관한 설명이다. Scribe는 페이스북에서 개발된 데이터 수집 플랫폼으로 Chukwa와 달리 중앙집중 서버로 데이터를 전송한다.
다음 중 기업 정보 시 스템들의 데이터를 연계, 통합하는 소프트웨어 및 정보 시스템 아키텍처 프레임워크인 EAI에 대한 설명으로 옳지 않은 것은?
① EAI는 미들웨어(Bus)를 이용하여 서비스 중심으로 시스템을 유기적으로 연계한다.
② EAI를 도입하면 글로벌 경영 환경에 적합한 데이터 표준화 기반을 정립할 수 있다.
③ Meditation 구현은 Publish/subscribe Model에 해당한다.
④ 다양한 형태로 산재되어 있는 어플리케이션을 프로세스 및 메시지 차원에서 통합/관리한다.
정답 ①
해설
EAI vs ESB
- EAI는 미들웨어(Hub)를 이용하여 비즈니스 로직을 중심으로 시스템을 유기적으로 연계한다.
- ESB는 미들웨어(Bus)를 이용하여 서비스 중심으로 시스템을 유기적으로 연계한다.
다음 중 하둡 에코시스템을 구성하는 다양한 기술과 그에 해당하는 설명으로 적절하지 않은 것은?
① 스쿱(Sqoop)은 하둡과 데이터베이스 간의 데이터 연동 솔루션으로 오픈소스이다.
② Pig는 Pig Latin 언어를 제공하지만 복잡한 MapReduce 프로그래밍을 대체하지는 못한다.
③ Flume은 소스서버에 에이전트가 설치되고, 에이전트로부터 데이터를 전달받는 콜렉터로 구성된다.
④ Mahout는 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈 소스 라이버르리에 해당한다.
정답 ②
해설
Pig는 Pig Latin 언어를 제공하여 복잡한 MapReduce 프로그래밍을 대체한다.
- Pig Latin을 이용하면기존 100줄의 코드를 10~20줄로 대체할 수 있다.
SQL on Hadoop 기술에 대한 설명 중 옳지 않은 것은?
① 하둡에 저장된 대용량 데이터를 대화형식의 SQL 질의를 통해서 처리하고 분석하는 기술이다.
② 임팔라는 하둡과 Hbase에 저장된 데이터를 대상으로 SQL 질의를 할 수 있다.
③ 호튼웍스에서 개발한 아파치 스팅거(Stinger)는 하이브 코드를 최대한 이용하여 성능을 개선하는 방식으로 개발되었다.
④ SQL on Hadoop 원조 기술은 구글에서 개발한 빅테이블이다.
정답 ④
해설
- SQL on Hadoop 원조 기술은 임팔라이다.
- 구글에서 개발한 빅테이블은 NoSQL 기술이다.
클라우드 컴퓨팅의 기반이 되는 인프라 기술인 가상화에 대한 설명 중 옳지 않은 것은?
① 최근에는 CPU 제조업체에서도 하드웨어 가상화 기술을 지원하는 등 새로운 가상화 방법이 계속 나오고 있기 때문에 서버 가상화 기술을 정확하게 분류하기는 힘들다.
② 컨테이너 기반 가상화 방식에서 가상화를 지원하는 계층을 하이퍼바이저라고 한다.
③ 서버 가상화는 물리적인 서버와 운영체제 사이에 적절한 계층을 추가해 서버를 사용하는 사용자에게 물리적인 자원은 숨기고 논리적인 자원만을 보여주는 기술이다.
④ 완전가상화는 어떠한 운영체제라도 수정하지 않은 채 설치가 가능하다.
정답 ②
해설
- 컨테이너 기반 가상화 방식에서 가상화를 지원하는 계층은 가상 운영환경이라고 부른다.
- 하이퍼바이저
- 호스트 컴퓨터엑서 다수의 운영체제를 동시에 실행하도록 하기 위한 논리적인 플랫폼을 의미한다.
- 물리적 서버 위에 존재하는 가상활 레이어를 통해 운영체제를 수행하는데 필요한 하드웨어 환경을 가상으로 만들어준다.