HDFS에서 파일 데이터는 기본 단위로 나누어져 여러 데이터노드에 분산 저장된다. HDFS의 기본 저장 단위로 적절한 것은?
① Chunk
② Block
③ Node
④ Memory
정답 ②
해설
GFS 파일 데이터의 기본 단위가 Chunk이고, HDFS 파일 데이터의 기본 단위는 Block이다.
다음 중 대용량 질의 기술이 아닌 것은?
① 아파치 Tajo
② 아파치 Drill
③ 스파크 SQL
④ Kudu
정답 ④
해설
①, ②, ③ 모두 SQL on Hadoop의 질의 기술이다.
- kudu는 Apache Hadoop Ecosystem 저장소 중 하나로 Columnar Storage이다.
다음 중 EAI에 대한 설명으로 옳지 않은 것은?
① point to point 방식으로 데이터 연계 시 N개의 연결대상 노드들이 존재할 경우 연결은 N(N-1)/2개가 발생한다.
② Hub and Spoke 방식을 기본으로 한다.
③ Federation은 EAI 엔진이 중개자(Broker)로 동작하며, 특정 정보시스템 내 데이터 신규 또는 갱신, 신규 트랜잭션 완료 등을 식별해, 사전 약속된 정보시스템들에게 그 내용을 전달한다.
④ point to point 방식은 복잡성 유지보수 비용 등이 발생한다.
정답 ③
해설
- Meditaion은 EAI 엔진이 중개자(Broker)로 동작하며, 특정 정보시스템 내 데이터 신규 또는 갱신, 신규 트랜잭션 완료 등을 식별해, 사전 약속된 정보시스템들에게 그 내용을 전달한다.
- Federation은 찾아봐야겠다.
아파치 스파크에 대한 설명 중 옳지 않은 것은?
① 데이터를 메모리에 캐시로 저장하는 인메모리 실행 모델로 성능을 향상시켰다.
② 스칼라, 자바, 파이썬, R을 지원한다. 특히 스칼라르 사용하면 융퉁성, 유연성, 데이터 분석에 적합한 함수형 프로그래밍 개념을 사용할 수 있다.
③ 스파크는 다양한 유형의 클러스터 매니저를 사용할 수 있다.
④ 인메모리 기반 프레임 워크이다보니, 높은 메모리가 필요없다.
정답 ④
해설
인메모리 기반 프레임 워크이다보니, 높은 메모리가 필요하다.
I/O 가상화 기술에 대한 설명 중 부적절한 것은?
① 가상 이더넷을 이용할 경우 각 가상머신들 사이에 물리적인 네트워크 어댑터 없이도 메모리 버스를 통해 고속 및 고효율 통신이 가능하다.
② 가상 이더넷을 통해 사용자들은 별도의 물리적 어댑터와 케이블을 사용하지 않고도 네트워크의 이중화, 네트워크의 안정적 단절 등의 효과를 얻을 수 있다.
③ 하나의 물리적인 장비에 여러 개의 가상머싱니 실행되고 있는 상황에서 가장 문제가 되는 것은 I/O에서의 병목현상이다.
④ 한 대의 서버가 여러 개의 가상머신을 구성할 경우 가장 문제가 되는 부분이 외장디스크를 사용할 수 있게 해주는 파이버 채널 어댑터와 같은 I/O 어댑터의 부족이다. 이를 해결하기 위해 공유 이더넷 어댑터 개념이 필요하다.
정답 ④
해설
④는 가상 디스크 어댑터에 대한 설명이다. 공유 이더넷 어댑터는 여러 개의 가성머신이 물리적인 네트워크 가드를 공유할 수 있게 하며, 공유된 물리적 카드를 통해 외부 네트워크와 통신을 가능하게 한다.
SQL on Hadoop 기술에 대한 설명으로 옳은 것은?
① 하둡과 하이브에서 처리 가능한 데이터보다 더 큰 데이터를 처리하기 위한 기술이다.
② 데이터 하우징 용도로 사용할 수 있는 데이터 분석 기술이다.
③ SQL on Hadoop 기술인 임팔라는 맵리듀스를 사용해서 실행 중에 최적화된 코드를 생성해 데이터를 처리한다.
④ SQL on Hadoop 원조 기술은 구글에서 개발한 빅테이블이다.
정답 ②
해설
① SQL on Hadoop은 실시간 SQL 질의 분석 기술이다.
③ SQL on Hadoop 기술인 임팔라는 맵리듀스를 사용하지 않고 실행 중에 최적화된 코드를 생성해 데이터를 처리한다.
④ NoSQL 원조 기술은 구글에서 개발한 빅테이블이다.
대표적인 오픈소스 데이터 수집 시스템인 Flume-NG 단계는?
① 어플리케이션 단계 ➡️ 데이터 수집 단계 ➡️ 수집한 데이터 저장 단계 ➡️ HDFS
② 데이터 수집 단계 ➡️ 어플리케이션 단계 ➡️ 수집한 데이터 저장 단계 ➡️ HDFS
③ HDFS ➡️ 어플리케이션 단계 ➡️ 데이터 수집 단계 ➡️ 수집한 데이터 저장 단계
④ 수집한 데이터 저장 단계 ➡️ 어플리케이션 단계 ➡️ 데이터 수집 단계 ➡️ HDFS
정답 ①
하둡에 대한 설명으로 부적절한 것은?
① 하둡은 대규모 분산 병렬 처리의 업계 표준인 맵리듀스 시스템과 분산 파일 시스템인 HDFS로 구성된 플랫폼 기술이다.
② 하둡은 기본적으로 비공유 분산 아키텍처 시스템이다.
③ 맵리듀스 작업을 수행하다가 특정 태스크에서 장애가 생기면, 시스템이 자동으로 감지해 장애가 발생한 특정 태스크만 다른 서버에서 재실행을 할 수 있다.
④ 하둡은 필요 시 서버를 추가하면 연산 기능과 저장 기능이 서버의 대수에 비례해 증가한다. 이를 고장 감내 기능(Fault Tolerance)이라고 한다.
정답 ④
해설
④는 Scalable에 대한 설명이다.
하둡의 맵리듀스 과정 중 Map의 중간 결과물 사용 단계는?
① Reduce
② Shuffle
③ Map
④ 위의 3개 모두
정답 ④
다음 중 MySQL 클러스터 구성을 할 경우 제한 사항이 올바르지 않은 것은?
① 파티셔닝은 Linear Key 파티셔닝만 사용 가능하다.
② 클러스터 참여하는 노드 수는 255로 제한한다.
③ 컬럼명 길이는 31자, 테이블명 길이는 122자로 제한한다.
④ 운영 중에 노드를 추가 또는 삭제할 수 있다.
정답 ④
해설
④ 운영 중에 노드를 추가 또는 삭제할 수 없다.
다음 중 병렬 쿼리 시스템인 하이브에 대한 설명으로 옳은 것은?
① 하이브는 페이스북에서 개발한 데이터 웨어하우징 인프라이다.
② 모든 표준 ANSI SQL을 지원한다.
③ 직접 코딩하지 않고 맵리듀스 작업을 수행할 수 없다.
④ 아마존에서 개발한 분산 병렬 처리 기술이다.
정답 ①
해설
② HiveQL을 지원한다.
③ 직접 코딩하지 않고 맵리듀스 작업을 수행할 수 있다.
④ 페이스북에서 개발한 분산 병렬 처리 기술이다.
다음 중 하둡 및 HDFS를 잘못 설명한 것은?
① 아파치 재단에서 분산 컴퓨팅을 목적으로 시작한 프로젝트이다.
② 하나의 대용량 파일을 여러 개의 데이터 블록으로 분산하여 저장하는 기법을 사용한다.
③ 다수의 DataNode와 이를 관리하는 다수의 NameNode로 구성된다.
④ 데이터 손실을 방지하려고 동일한 블록을 다른 DataNode에 복제하는 기법을 사용한다.
정답 ③
해설
③ 다수의 데이터노드와 이를 관리하는 하나의 네임노드로 구성된다.
하둡의 맵리듀스에 대한 설명 중 부적절한 것은?
① 구글의 맵리듀스는 논문으로만 접할 수 있고 실제 구현은 공개되지 않았다.
② 아파치 오픈소스 프로젝ㅌ으인 하둡의 맵리듀스는 구글에서 발표한 논문을 바탕으로 자바 언어로 구현한 시스템이라고 할 수 있다.
③ 클라이언트는 분석하고자 하는 데이터를 job의 형태로 잡트래커에게 전달한다.
④ 하둡 클러스터에 등록된 전체 job을 스케줄링하고 모니터링하는 것은 태스크트래커이다.
정답 ④
해설
④ 하둡 클러스터에 등록된 전체 job을 스케줄링하고 모니터링하는 것은 잡트래커이다.
태스크트래커는 잡트래커가 시킨 일을 한다.
HiveQL과 SQL의 차이점에 대한 설명으로 부적절한 것은?
① 하이브에서 사용하는 데이터가 HDFS에 저장되는데, HDFS가 한 번 저장한 파일은 수정할 수 없기 때문에 HiveQL은 UPDATE, DELETE를 사용할 수 있다.
② SQL은 어떤 절에서도 서브쿼리를 사용할 수 있지만 HiveQL은 FROM 절에서만 서브쿼리를 사용할 수 있다.
③ SQL의 뷰는 업데이트할 수 있고, 구체화된 뷰 또는 비구체화된 뷰를 지원한다.
④ SELECT 문을 사용할 때 HAVING 절을 사용할 수 없다.
정답 ①
해설
① 하이브에서 사용하는 데이터가 HDFS에 저장되는데, HDFS가 한 번 저장한 파일은 수정할 수 없기 때문에 HiveQL은 UPDATE, DELETE를 사용할 수 없다.
다음 중 성격이 다른 것은?
① 구글 Sawzall
② 아파치 피그
③ 아파치 하이브
④ 오라클 RAC
정답 ④
해설
④ 오라클 RAC는 공유 뭐시기이다.
자신의 커뮤니티와 다른 커뮤니티에 모두 연결이 많은 것을 유력자(Influencer), 여러 노드와 연결된 것은 리더 지위(Leader position), 커뮤니티와 커뮤니티를 연결하는 데 사용되는 노드는 브릿지(Bridge) 역할을 의미한다. 이를 소셜 마케팅에 활용한다면 어떤 순서로 마케팅 전략을 세워야 하는가?
① Influencer ➡️ Leader position ➡️ Bridge
② Leader position ➡️ Influencer ➡️ Bridge
③ Bridge ➡️ Leader position ➡️ Influencer
④ Bridge ➡️ Influencer ➡️ Leader position
정답 ①
다음 중 정보시각 표현에 대한 설명 중 옳지 않은 것은?
① 여러 요소들이 단일한 패턴을 보일 경우, 그것을 하나의 개체로 인식하는 경향이 있다.
② 개별 요소들이 동일한 방향으로 움직이면 그것을 하나의 개체로 인식하는 경향이 있다.
③ 빨간색과 파란색이 모양과 크기가 동일하면 하나의 관계로 묶으려는 경향이 있다.
④ 한 화면에 배치된 그래픽이 어떤 방향으로 움직이면 인간의 시야는 포착하지 못한다.
정답 ④
다음 중 일반적인 시각화 프로세스로 적절한 것은?
① 데이터 수집 ➡️ 모든 것을 읽기 ➡️ 내러티브 찾기 ➡️ 문제의 정의 ➡️ 계층 구조 만들기 ➡️ 와이어프레임 그리기 ➡️ 포맷 선택하기 ➡️ 시각 접근 방법 결정하기 ➡️ 정제와 테스트
② 데이터 수집 ➡️ 모든 것을 읽기 ➡️ 내러티브 찾기 ➡️ 문제의 정의 ➡️ 계층 구조 만들기 ➡️ 와이어프레임 그리기 ➡️ 포맷 선택하기 ➡️ 정제와 테스트 ➡️ 시각 접근 방법 결정하기
③ 데이터 수집 ➡️ 모든 것을 읽기 ➡️ 문제의 정의 ➡️ 내러티브 찾기 ➡️ 계층 구조 만들기 ➡️ 와이어프레임 그리기 ➡️ 포맷 선택하기 ➡️ 시각 접근 방법 결정하기 ➡️ 정제와 테스트
④ 데이터 수집 ➡️ 모든 것을 읽기 ➡️ 내러티브 찾기 ➡️ 문제의 정의 ➡️ 계층 구조 만들기 ➡️ 포맷 선택하기 ➡️ 와이어프레임 그리기 ➡️ 정제와 테스트 ➡️ 시각 접근 방법 결정하기
정답 ①
해설
- 문제의 정의가 4단계, 와이어프레임 그리기가 6단계, 정제와 테스트가 마지막, 시각 접근 방법 결정하기가 마지막에서 하나 전인 것만 알고 있어도 될 것 같다.
다음 중 분포시각화의 파이차트에 대한 설명 중 옳지 않은 것은?
① 파이차트를 분석에 사용할 때 발생할 수 있는 문제점은, 크기가 비슷하지만 서로 인접해 있지 않은 파이의 조각들을 제대로 비교하기 어렵다는 것이다.
② 파이차트는 데이터 시각화에 제한 부분이 있어 데이터 분석에 자주 사용하지는 않는다.
③ 파이차트를 사용하려면 구성요소를 제한하고 내용을 설명하기 위한 텍스트와 퍼센티지를 포함시키는 것을 권고한다.
④ 파이차트는 면적으로 값을 보여주며, 수치를 각도로 표시할 뿐 분포의 정도 총합을 100%로 표기할 필요는 없다.
정답 ④
도넛차트에 대한 설명으로 부적절한 것은?
① 도넛차트는 파이차트와 마찬가지로 수치를 각도로 표시한다.
② 파이차트와 달리 중심부를 잘라내 도넛 모양으로 보인다는 점이 다르다.
③ 도넛의 한 부분은 한 부류 또는 값을 나타낸다.
④ 파이차트와 마찬가지로 조각에 해당하는 수치는 조각의 면적으로 표시한다.
정답 ④
해설
파이차트와 도넛차트의 가장 큰 차이점은 도넛차트의 경우 중심의 구멍 때문에 조각에 해당하는 수치는 조각의 면접이 아닌 길이로 표시한다는 것이다.
다음 중 인포그래픽에 대한 설명으로 부적절한 것은?
① 정보 디자인에서 메시지를 전달하고자 하는 측면에서 분석해보면 대개 정보 사용의 목적과 관점에 따라서 '정보형 메시지'와 '설득형 메시지'로 나누어 볼 수 있다.
② 인포그래픽은 데이터 시각화와는 확연히 구별될 정도로 원데이터를 취급하지 않는다.
③ 인포그래픽은 데이터를 객관적으로 어떤 것과 비교해 원인과 결과의 인과관계를 왜곡없이 전달하는 것에 초점을 두고 있다.
④ 인포그래픽은 양적 정보 디자인에 초점을 맞추기보다는 다양한 정보를 종합해 정보 디자인의 의도에 따라 그래픡으로 전달하려는 경향이 있다.
정답 ③
해설
인포그래픽이 아닌 정보형 메시지, 즉 데이터 시각화는 데이터를 객관적으로 어떤 것과 비교해 원인과 결과의 인과관계를 왜곡없이 전달하는 것에 초점을 두고 있다.
시각적 이해의 위계 구도 상에서 인간의 경험이 본격적으로 개입되는 단계는?
① 데이터
② 정보
③ 지식
④ 지혜
정답 ④
다음 중 D3.js의 스캐터 플롯에서 눈금의 위치를 나타내는 함수는?
① orient()
② tickValues()
③ ticks()
④ domain()
정답 ①
데이터를 명세화하기 위한 개념과 거리가 먼 것은?
① 로그데이터
② 데이터형
③ 클래스
④ 메서드
정답 ①
해설
데이터를 명세화할 때는 어떤 단위나 형태로 표현되는지와 표현해야 하는지에 대해 항상 주의를 기울여야 한다. 로그 데이터는 명세화의 대상일 뿐이다.
스프레드시트에서 제공하는 문자열 함수 중 문자열에서 찾는 문자가 맨 왼쪽으로부터 몇 번째에 있는지 숫자값을 제공하는 함수는?
① find()
② split()
③ left()
④ mid()
정답 ①
통찰을 활용하는 다른 방법들 중 성격이 다른 것은?
① 조기 경보 체계의 구축
② 설명력을 강화하는 변인의 추가
③ 설명과 설득을 위한 스토리텔링 콘텐츠 제작
④ 기존 모델에 대한 전면적인 재검토
정답 ③
해설
활용 단계에서 내부에서의 적용과 외부에서의 적용을 구분해보면,
①, ②, ④는 내부에서의 적용이고, ③은 외부에서의 적용이다.
탐색 범위를 설정할 때 고려 사항이 아닌 것은?
① 처음에는 측정값에 하나의 차원만 연결해 탐색하고, 단계적으로 연결된 차원을 늘려가며 살펴본다.
② 같은 데이터 안에서 차원과 측정값을 서로 맞바꾸면 통차라을 찾아낼 가능성이 있다.
③ 데이터 간의 연결고리를 이용해 전체 데이터 집합 안에서의 탐색 범위를 설정하는 쪽이 낫다. 한 번에 모든 것을 연결해버리면 무리가 따른다.
④ 연결할 수 있는 모든 조합을 살펴보는 것이 효율적이다.
정답 ④
해설
연결할 수 있다고 해서 모든 조합을 살펴보는 것인 비효율적이다.
빅데이터 시각화 디자인에 대한 설명 중 부적절한 것은?
① 정보 디자인은 인포그래픽을 포함해 데이터의 디테일을 나타내고 정보형 메시지를 전달하려는 것에 초점을 두고 있다.
② 데이터 시각화는 정보형 메시지를 전달한다.
③ 빅데이터 시각화는 설득형 메시지를 전달하려는 경향이 높다.
④ 정보 디자인에서 양적 정보 디자인은 데이터 시각화나 정보 시각화와 겹치면서 데이터를 객관적으로 어떤 것과 비교해 원인과 결과의 인과관계를 왜곡없이 전달하는데 초점을 두고 있다.
정답 ①
해설
정보 디자인은 인포그래픽을 포함해 데이터의 디테일을 나타내기보다는 그래픽을 적극적으로 이용해 시각 스토리텔링 형식의 설득형 메시지를 전달하는 것에 초점을 두고 있다.
마티아스 샤피로의 빅데이터 시각화 과정 순서는?
① 질문 만들어내기 ➡️ 데이터 수집하기 ➡️ 시각적 표현 적용하기
② 데이터 수집하기 ➡️ 질문 만들어내기 ➡️ 시각적 표현 적용하기
③ 시각적 표현 적용하기 ➡️ 질문 만들어내기 ➡️ 데이터 수집하기
④ 질문 만들어내기 ➡️ 데이터 수집하기 ➡️ 상호 작용하기
정답 ①
다음 중 정보 시각화 분류에 해당하지 않는 것은?
① 비교 시각화
② 분포 시각화
③ 다중 변수 비교
④ 인터랙션
정답 ④
해설
④ 인터랙션은 정보 시각화가 아닌 정보 시각 표현의 분류에 해당한다.
시각화 인사이트의 탐색에 대한 설명으로 부적절한 것은?
① 공통 요소 찾기는 연결고리 확인의 한 과정이다.
② 데이터형이 달라도 공통요소로 변환할 수 있는 경우가 있다.
③ 탐색 범위를 설정할 때 차원과 측정값을 바꿔도 같은 통찰이 나타난다.
④ 탐색은 차원수를 한 개의 차원에서 점점 확대해 가는 것이 바람직하다.
정답 ③
해설
탐색 범위를 설정할 때 차원과 측정값을 바꾸면 다른 통찰이 나타날 수 있다.
다음 중 이상값이 발생하는 경우를 바르게 나열한 것은?
ㄱ. 데이터를 측정할 때 여러 가지 이유로 오류가 발생해 다른 값들과 큰 차이가 나는 오차가 들어간 경우
ㄴ. 측정에는 문제가 없었으나 데이터가 기록, 관리되는 과정에서 문제가 생겨서 이상한 값이 들어가는 경우
ㄷ. 측정이나 기록의 오류가 아니라 뭔가 의미있는 이유가 있기 때문에 발생한다.
① ㄱ, ㄴ
② ㄱ, ㄷ
③ ㄴ, ㄷ
④ ㄱ, ㄴ, ㄷ
정답 ①
해설