ADP 2019년 필기(12~15회) 기출 오답노트

DMIS·2023년 2월 22일
0

ADP 필기

목록 보기
9/13
post-thumbnail

✐ 2과목 : 데이터 처리 기술 이해

⚑ 문제1

HDFS에서 파일 데이터는 기본 단위로 나누어져 여러 데이터노드에 분산 저장된다. HDFS의 기본 저장 단위로 적절한 것은?
① Chunk
② Block
③ Node
④ Memory

정답
해설
GFS 파일 데이터의 기본 단위가 Chunk이고, HDFS 파일 데이터의 기본 단위는 Block이다.

⚑ 문제2

다음 중 대용량 질의 기술이 아닌 것은?
① 아파치 Tajo
② 아파치 Drill
③ 스파크 SQL
④ Kudu

정답
해설
①, ②, ③ 모두 SQL on Hadoop의 질의 기술이다.

  • kudu는 Apache Hadoop Ecosystem 저장소 중 하나로 Columnar Storage이다.

⚑ 문제3

다음 중 EAI에 대한 설명으로 옳지 않은 것은?
① point to point 방식으로 데이터 연계 시 N개의 연결대상 노드들이 존재할 경우 연결은 N(N-1)/2개가 발생한다.
② Hub and Spoke 방식을 기본으로 한다.
③ Federation은 EAI 엔진이 중개자(Broker)로 동작하며, 특정 정보시스템 내 데이터 신규 또는 갱신, 신규 트랜잭션 완료 등을 식별해, 사전 약속된 정보시스템들에게 그 내용을 전달한다.
④ point to point 방식은 복잡성 유지보수 비용 등이 발생한다.

정답
해설

  • Meditaion은 EAI 엔진이 중개자(Broker)로 동작하며, 특정 정보시스템 내 데이터 신규 또는 갱신, 신규 트랜잭션 완료 등을 식별해, 사전 약속된 정보시스템들에게 그 내용을 전달한다.
  • Federation은 찾아봐야겠다.

⚑ 문제4

아파치 스파크에 대한 설명 중 옳지 않은 것은?
① 데이터를 메모리에 캐시로 저장하는 인메모리 실행 모델로 성능을 향상시켰다.
② 스칼라, 자바, 파이썬, R을 지원한다. 특히 스칼라르 사용하면 융퉁성, 유연성, 데이터 분석에 적합한 함수형 프로그래밍 개념을 사용할 수 있다.
③ 스파크는 다양한 유형의 클러스터 매니저를 사용할 수 있다.
④ 인메모리 기반 프레임 워크이다보니, 높은 메모리가 필요없다.

정답
해설
인메모리 기반 프레임 워크이다보니, 높은 메모리가 필요하다.

⚑ 문제5

I/O 가상화 기술에 대한 설명 중 부적절한 것은?
① 가상 이더넷을 이용할 경우 각 가상머신들 사이에 물리적인 네트워크 어댑터 없이도 메모리 버스를 통해 고속 및 고효율 통신이 가능하다.
② 가상 이더넷을 통해 사용자들은 별도의 물리적 어댑터와 케이블을 사용하지 않고도 네트워크의 이중화, 네트워크의 안정적 단절 등의 효과를 얻을 수 있다.
③ 하나의 물리적인 장비에 여러 개의 가상머싱니 실행되고 있는 상황에서 가장 문제가 되는 것은 I/O에서의 병목현상이다.
④ 한 대의 서버가 여러 개의 가상머신을 구성할 경우 가장 문제가 되는 부분이 외장디스크를 사용할 수 있게 해주는 파이버 채널 어댑터와 같은 I/O 어댑터의 부족이다. 이를 해결하기 위해 공유 이더넷 어댑터 개념이 필요하다.

정답
해설
④는 가상 디스크 어댑터에 대한 설명이다. 공유 이더넷 어댑터는 여러 개의 가성머신이 물리적인 네트워크 가드를 공유할 수 있게 하며, 공유된 물리적 카드를 통해 외부 네트워크와 통신을 가능하게 한다.

⚑ 문제6

SQL on Hadoop 기술에 대한 설명으로 옳은 것은?
① 하둡과 하이브에서 처리 가능한 데이터보다 더 큰 데이터를 처리하기 위한 기술이다.
② 데이터 하우징 용도로 사용할 수 있는 데이터 분석 기술이다.
③ SQL on Hadoop 기술인 임팔라는 맵리듀스를 사용해서 실행 중에 최적화된 코드를 생성해 데이터를 처리한다.
④ SQL on Hadoop 원조 기술은 구글에서 개발한 빅테이블이다.

정답
해설
① SQL on Hadoop은 실시간 SQL 질의 분석 기술이다.
③ SQL on Hadoop 기술인 임팔라는 맵리듀스를 사용하지 않고 실행 중에 최적화된 코드를 생성해 데이터를 처리한다.
④ NoSQL 원조 기술은 구글에서 개발한 빅테이블이다.

⚑ 문제7

대표적인 오픈소스 데이터 수집 시스템인 Flume-NG 단계는?
① 어플리케이션 단계 ➡️ 데이터 수집 단계 ➡️ 수집한 데이터 저장 단계 ➡️ HDFS
② 데이터 수집 단계 ➡️ 어플리케이션 단계 ➡️ 수집한 데이터 저장 단계 ➡️ HDFS
③ HDFS ➡️ 어플리케이션 단계 ➡️ 데이터 수집 단계 ➡️ 수집한 데이터 저장 단계
④ 수집한 데이터 저장 단계 ➡️ 어플리케이션 단계 ➡️ 데이터 수집 단계 ➡️ HDFS

정답

⚑ 문제8

하둡에 대한 설명으로 부적절한 것은?
① 하둡은 대규모 분산 병렬 처리의 업계 표준인 맵리듀스 시스템과 분산 파일 시스템인 HDFS로 구성된 플랫폼 기술이다.
② 하둡은 기본적으로 비공유 분산 아키텍처 시스템이다.
③ 맵리듀스 작업을 수행하다가 특정 태스크에서 장애가 생기면, 시스템이 자동으로 감지해 장애가 발생한 특정 태스크만 다른 서버에서 재실행을 할 수 있다.
④ 하둡은 필요 시 서버를 추가하면 연산 기능과 저장 기능이 서버의 대수에 비례해 증가한다. 이를 고장 감내 기능(Fault Tolerance)이라고 한다.

정답
해설
④는 Scalable에 대한 설명이다.

⚑ 문제9

하둡의 맵리듀스 과정 중 Map의 중간 결과물 사용 단계는?
① Reduce
② Shuffle
③ Map
④ 위의 3개 모두

정답

⚑ 문제10

다음 중 MySQL 클러스터 구성을 할 경우 제한 사항이 올바르지 않은 것은?
① 파티셔닝은 Linear Key 파티셔닝만 사용 가능하다.
② 클러스터 참여하는 노드 수는 255로 제한한다.
③ 컬럼명 길이는 31자, 테이블명 길이는 122자로 제한한다.
④ 운영 중에 노드를 추가 또는 삭제할 수 있다.

정답
해설
④ 운영 중에 노드를 추가 또는 삭제할 수 없다.

⚑ 문제11

다음 중 병렬 쿼리 시스템인 하이브에 대한 설명으로 옳은 것은?
① 하이브는 페이스북에서 개발한 데이터 웨어하우징 인프라이다.
② 모든 표준 ANSI SQL을 지원한다.
③ 직접 코딩하지 않고 맵리듀스 작업을 수행할 수 없다.
④ 아마존에서 개발한 분산 병렬 처리 기술이다.

정답
해설
② HiveQL을 지원한다.
③ 직접 코딩하지 않고 맵리듀스 작업을 수행할 수 있다.
④ 페이스북에서 개발한 분산 병렬 처리 기술이다.

⚑ 문제12

다음 중 하둡 및 HDFS를 잘못 설명한 것은?
① 아파치 재단에서 분산 컴퓨팅을 목적으로 시작한 프로젝트이다.
② 하나의 대용량 파일을 여러 개의 데이터 블록으로 분산하여 저장하는 기법을 사용한다.
③ 다수의 DataNode와 이를 관리하는 다수의 NameNode로 구성된다.
④ 데이터 손실을 방지하려고 동일한 블록을 다른 DataNode에 복제하는 기법을 사용한다.

정답
해설
③ 다수의 데이터노드와 이를 관리하는 하나의 네임노드로 구성된다.

⚑ 문제13

하둡의 맵리듀스에 대한 설명 중 부적절한 것은?
① 구글의 맵리듀스는 논문으로만 접할 수 있고 실제 구현은 공개되지 않았다.
② 아파치 오픈소스 프로젝ㅌ으인 하둡의 맵리듀스는 구글에서 발표한 논문을 바탕으로 자바 언어로 구현한 시스템이라고 할 수 있다.
③ 클라이언트는 분석하고자 하는 데이터를 job의 형태로 잡트래커에게 전달한다.
④ 하둡 클러스터에 등록된 전체 job을 스케줄링하고 모니터링하는 것은 태스크트래커이다.

정답
해설
④ 하둡 클러스터에 등록된 전체 job을 스케줄링하고 모니터링하는 것은 잡트래커이다.
태스크트래커는 잡트래커가 시킨 일을 한다.

⚑ 문제14

HiveQL과 SQL의 차이점에 대한 설명으로 부적절한 것은?
① 하이브에서 사용하는 데이터가 HDFS에 저장되는데, HDFS가 한 번 저장한 파일은 수정할 수 없기 때문에 HiveQL은 UPDATE, DELETE를 사용할 수 있다.
② SQL은 어떤 절에서도 서브쿼리를 사용할 수 있지만 HiveQL은 FROM 절에서만 서브쿼리를 사용할 수 있다.
③ SQL의 뷰는 업데이트할 수 있고, 구체화된 뷰 또는 비구체화된 뷰를 지원한다.
④ SELECT 문을 사용할 때 HAVING 절을 사용할 수 없다.

정답
해설
① 하이브에서 사용하는 데이터가 HDFS에 저장되는데, HDFS가 한 번 저장한 파일은 수정할 수 없기 때문에 HiveQL은 UPDATE, DELETE를 사용할 수 없다.

⚑ 문제15

다음 중 성격이 다른 것은?
① 구글 Sawzall
② 아파치 피그
③ 아파치 하이브
④ 오라클 RAC

정답
해설
④ 오라클 RAC는 공유 뭐시기이다.


✐ 4과목 : 데이터 분석

⚑ 문제1

자신의 커뮤니티와 다른 커뮤니티에 모두 연결이 많은 것을 유력자(Influencer), 여러 노드와 연결된 것은 리더 지위(Leader position), 커뮤니티와 커뮤니티를 연결하는 데 사용되는 노드는 브릿지(Bridge) 역할을 의미한다. 이를 소셜 마케팅에 활용한다면 어떤 순서로 마케팅 전략을 세워야 하는가?
① Influencer ➡️ Leader position ➡️ Bridge
② Leader position ➡️ Influencer ➡️ Bridge
③ Bridge ➡️ Leader position ➡️ Influencer
④ Bridge ➡️ Influencer ➡️ Leader position

정답


✐ 5과목 : 데이터 시각화

⚑ 문제1

다음 중 정보시각 표현에 대한 설명 중 옳지 않은 것은?
① 여러 요소들이 단일한 패턴을 보일 경우, 그것을 하나의 개체로 인식하는 경향이 있다.
② 개별 요소들이 동일한 방향으로 움직이면 그것을 하나의 개체로 인식하는 경향이 있다.
③ 빨간색과 파란색이 모양과 크기가 동일하면 하나의 관계로 묶으려는 경향이 있다.
④ 한 화면에 배치된 그래픽이 어떤 방향으로 움직이면 인간의 시야는 포착하지 못한다.

정답

⚑ 문제2

다음 중 일반적인 시각화 프로세스로 적절한 것은?
① 데이터 수집 ➡️ 모든 것을 읽기 ➡️ 내러티브 찾기 ➡️ 문제의 정의 ➡️ 계층 구조 만들기 ➡️ 와이어프레임 그리기 ➡️ 포맷 선택하기 ➡️ 시각 접근 방법 결정하기 ➡️ 정제와 테스트
② 데이터 수집 ➡️ 모든 것을 읽기 ➡️ 내러티브 찾기 ➡️ 문제의 정의 ➡️ 계층 구조 만들기 ➡️ 와이어프레임 그리기 ➡️ 포맷 선택하기 ➡️ 정제와 테스트 ➡️ 시각 접근 방법 결정하기
③ 데이터 수집 ➡️ 모든 것을 읽기 ➡️ 문제의 정의 ➡️ 내러티브 찾기 ➡️ 계층 구조 만들기 ➡️ 와이어프레임 그리기 ➡️ 포맷 선택하기 ➡️ 시각 접근 방법 결정하기 ➡️ 정제와 테스트
④ 데이터 수집 ➡️ 모든 것을 읽기 ➡️ 내러티브 찾기 ➡️ 문제의 정의 ➡️ 계층 구조 만들기 ➡️ 포맷 선택하기 ➡️ 와이어프레임 그리기 ➡️ 정제와 테스트 ➡️ 시각 접근 방법 결정하기

정답
해설

  • 문제의 정의가 4단계, 와이어프레임 그리기가 6단계, 정제와 테스트가 마지막, 시각 접근 방법 결정하기가 마지막에서 하나 전인 것만 알고 있어도 될 것 같다.

⚑ 문제3

다음 중 분포시각화의 파이차트에 대한 설명 중 옳지 않은 것은?
① 파이차트를 분석에 사용할 때 발생할 수 있는 문제점은, 크기가 비슷하지만 서로 인접해 있지 않은 파이의 조각들을 제대로 비교하기 어렵다는 것이다.
② 파이차트는 데이터 시각화에 제한 부분이 있어 데이터 분석에 자주 사용하지는 않는다.
③ 파이차트를 사용하려면 구성요소를 제한하고 내용을 설명하기 위한 텍스트와 퍼센티지를 포함시키는 것을 권고한다.
④ 파이차트는 면적으로 값을 보여주며, 수치를 각도로 표시할 뿐 분포의 정도 총합을 100%로 표기할 필요는 없다.

정답

⚑ 문제4

도넛차트에 대한 설명으로 부적절한 것은?
① 도넛차트는 파이차트와 마찬가지로 수치를 각도로 표시한다.
② 파이차트와 달리 중심부를 잘라내 도넛 모양으로 보인다는 점이 다르다.
③ 도넛의 한 부분은 한 부류 또는 값을 나타낸다.
④ 파이차트와 마찬가지로 조각에 해당하는 수치는 조각의 면적으로 표시한다.

정답
해설
파이차트와 도넛차트의 가장 큰 차이점은 도넛차트의 경우 중심의 구멍 때문에 조각에 해당하는 수치는 조각의 면접이 아닌 길이로 표시한다는 것이다.

⚑ 문제5

다음 중 인포그래픽에 대한 설명으로 부적절한 것은?
① 정보 디자인에서 메시지를 전달하고자 하는 측면에서 분석해보면 대개 정보 사용의 목적과 관점에 따라서 '정보형 메시지'와 '설득형 메시지'로 나누어 볼 수 있다.
② 인포그래픽은 데이터 시각화와는 확연히 구별될 정도로 원데이터를 취급하지 않는다.
③ 인포그래픽은 데이터를 객관적으로 어떤 것과 비교해 원인과 결과의 인과관계를 왜곡없이 전달하는 것에 초점을 두고 있다.
④ 인포그래픽은 양적 정보 디자인에 초점을 맞추기보다는 다양한 정보를 종합해 정보 디자인의 의도에 따라 그래픡으로 전달하려는 경향이 있다.

정답
해설
인포그래픽이 아닌 정보형 메시지, 즉 데이터 시각화는 데이터를 객관적으로 어떤 것과 비교해 원인과 결과의 인과관계를 왜곡없이 전달하는 것에 초점을 두고 있다.

⚑ 문제6

시각적 이해의 위계 구도 상에서 인간의 경험이 본격적으로 개입되는 단계는?
① 데이터
② 정보
③ 지식
④ 지혜

정답

⚑ 문제7

다음 중 D3.js의 스캐터 플롯에서 눈금의 위치를 나타내는 함수는?
① orient()
② tickValues()
③ ticks()
④ domain()

정답

⚑ 문제8

데이터를 명세화하기 위한 개념과 거리가 먼 것은?
① 로그데이터
② 데이터형
③ 클래스
④ 메서드

정답
해설
데이터를 명세화할 때는 어떤 단위나 형태로 표현되는지와 표현해야 하는지에 대해 항상 주의를 기울여야 한다. 로그 데이터는 명세화의 대상일 뿐이다.

⚑ 문제9

스프레드시트에서 제공하는 문자열 함수 중 문자열에서 찾는 문자가 맨 왼쪽으로부터 몇 번째에 있는지 숫자값을 제공하는 함수는?
① find()
② split()
③ left()
④ mid()

정답

⚑ 문제10

통찰을 활용하는 다른 방법들 중 성격이 다른 것은?
① 조기 경보 체계의 구축
② 설명력을 강화하는 변인의 추가
③ 설명과 설득을 위한 스토리텔링 콘텐츠 제작
④ 기존 모델에 대한 전면적인 재검토

정답
해설
활용 단계에서 내부에서의 적용과 외부에서의 적용을 구분해보면,
①, ②, ④는 내부에서의 적용이고, ③은 외부에서의 적용이다.

⚑ 문제11

탐색 범위를 설정할 때 고려 사항이 아닌 것은?
① 처음에는 측정값에 하나의 차원만 연결해 탐색하고, 단계적으로 연결된 차원을 늘려가며 살펴본다.
② 같은 데이터 안에서 차원과 측정값을 서로 맞바꾸면 통차라을 찾아낼 가능성이 있다.
③ 데이터 간의 연결고리를 이용해 전체 데이터 집합 안에서의 탐색 범위를 설정하는 쪽이 낫다. 한 번에 모든 것을 연결해버리면 무리가 따른다.
④ 연결할 수 있는 모든 조합을 살펴보는 것이 효율적이다.

정답
해설
연결할 수 있다고 해서 모든 조합을 살펴보는 것인 비효율적이다.

⚑ 문제12

빅데이터 시각화 디자인에 대한 설명 중 부적절한 것은?
① 정보 디자인은 인포그래픽을 포함해 데이터의 디테일을 나타내고 정보형 메시지를 전달하려는 것에 초점을 두고 있다.
② 데이터 시각화는 정보형 메시지를 전달한다.
③ 빅데이터 시각화는 설득형 메시지를 전달하려는 경향이 높다.
④ 정보 디자인에서 양적 정보 디자인은 데이터 시각화나 정보 시각화와 겹치면서 데이터를 객관적으로 어떤 것과 비교해 원인과 결과의 인과관계를 왜곡없이 전달하는데 초점을 두고 있다.

정답
해설
정보 디자인은 인포그래픽을 포함해 데이터의 디테일을 나타내기보다는 그래픽을 적극적으로 이용해 시각 스토리텔링 형식의 설득형 메시지를 전달하는 것에 초점을 두고 있다.

⚑ 문제13

마티아스 샤피로의 빅데이터 시각화 과정 순서는?
① 질문 만들어내기 ➡️ 데이터 수집하기 ➡️ 시각적 표현 적용하기
② 데이터 수집하기 ➡️ 질문 만들어내기 ➡️ 시각적 표현 적용하기
③ 시각적 표현 적용하기 ➡️ 질문 만들어내기 ➡️ 데이터 수집하기
④ 질문 만들어내기 ➡️ 데이터 수집하기 ➡️ 상호 작용하기

정답

⚑ 문제14

다음 중 정보 시각화 분류에 해당하지 않는 것은?
① 비교 시각화
② 분포 시각화
③ 다중 변수 비교
④ 인터랙션

정답
해설
④ 인터랙션은 정보 시각화가 아닌 정보 시각 표현의 분류에 해당한다.

⚑ 문제15

시각화 인사이트의 탐색에 대한 설명으로 부적절한 것은?
① 공통 요소 찾기는 연결고리 확인의 한 과정이다.
② 데이터형이 달라도 공통요소로 변환할 수 있는 경우가 있다.
③ 탐색 범위를 설정할 때 차원과 측정값을 바꿔도 같은 통찰이 나타난다.
④ 탐색은 차원수를 한 개의 차원에서 점점 확대해 가는 것이 바람직하다.

정답
해설
탐색 범위를 설정할 때 차원과 측정값을 바꾸면 다른 통찰이 나타날 수 있다.

⚑ 문제16

다음 중 이상값이 발생하는 경우를 바르게 나열한 것은?
ㄱ. 데이터를 측정할 때 여러 가지 이유로 오류가 발생해 다른 값들과 큰 차이가 나는 오차가 들어간 경우
ㄴ. 측정에는 문제가 없었으나 데이터가 기록, 관리되는 과정에서 문제가 생겨서 이상한 값이 들어가는 경우
ㄷ. 측정이나 기록의 오류가 아니라 뭔가 의미있는 이유가 있기 때문에 발생한다.
① ㄱ, ㄴ
② ㄱ, ㄷ
③ ㄴ, ㄷ
④ ㄱ, ㄴ, ㄷ

정답
해설

profile
Data + Math

0개의 댓글