ADP 필기 모의고사 오답노트 (2)

DMIS·2023년 2월 24일

ADP 필기

목록 보기

10/13

✐ 1과목 : 데이터 이해

⚑ 문제1

개인정보의 식별성을 제거하거나 데이터 셋과 정보 주체의 연관성을 제거하는 과정을 개인정보 비식별화라고 한다. 비식별화가 적용된 아래의 예시에 해당하는 기법은 무엇인가?
"한국 데이터 진흥원" ➡️ "A1234"
① 가명처리
② 데이터마스킹
③ 범주화
④ 총계처리

정답 ①
해설
가명처리는 식별할 수 없는 다른 값으로 대체하는 것이고, 데이터마스킹은 한국 데이터 진흥원이라면 한국 OOO OOO 과 같이 아예 마스킹 처리를 하는 것이다.

⚑ 문제2

일반적인 빅데이터의 정의와 가장 거리가 먼 것은?
① 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석 등 범위를 초과하는 규모의 데이터이다.
② 빅데이터는 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다.
③ 빅데이터 데이터의 양, 데이터 유형과 소스의 다양성, 데이터 수집과 처리 측면에서 속도가 급격히 증가하면서 나타났다.
④ 기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 하둡을 기반으로 하는 대용량 분산처리기술을 통해 창출하는 새로운 방식이다.

정답 ④
해설
하둡은 빅데이트의 보완기술이고 특징일 뿐, 정의는 아니다.

⚑ 문제3

다음 중 빅데이터가 만들어 내는 변화로 부적절한 것은?
① 데이터의 사후처리보다 사전처리에 비중을 둔다.
② 데이터의 질보다 양을 중시한다.
③ 통계학에서 중요시 하는 인과관계보다 상관관계에 비중을 둔다.
④ 조사 방법론으로는 표본조사에서 전수조사에 비중을 둔다.

정답 ①
해설
① 데이터의 사전처리보다 사후처리에 비중을 둔다.

✐ 2과목 : 데이터 처리 기술 이해

⚑ 문제1

다음 중 데이터베이스 클러스터에 대한 설명으로 가장 적절한 것은?
① 오픈소스인 MySQL 클러스터는 비공유형으로써 메모리 기반 데이터베이스의 클러스터링을 지원한다.
② 데이터베이스 클러스터를 구성했을 때 성능의 특정 파티션에서 장애가 발생하면 서비스가 중단될 수도 있다.
③ 공유 디스크 클러스터에서는 SAN과 같은 네트워크가 없어도 데이터의 공유가 가능하다.
④ 공유 디스크의 경우 클러스터의 규모가 커질 때 디스크의 성능이 높아진다는 것이 최대 장점이다.

정답 ①
해설
Oracle RAC를 제외한 나머지는 비공유형으로 생각하자.

⚑ 문제2

CDC의 구현 기법에 관한 설명으로 가장 적절한 것은?
① Log scanner on database : 로그에 대한 스캐닝 및 변경 내역에 대한 해석을 통해 CDC 매커니즘을 구현하는 기법으로, 데이터베이스 스키마의 변경을 필요로 한다.
② Status on Rows : 데이터 변경 여부에 대해 True / False의 논리값으로 표현하는 컬럼을 두는 기법으로, 레코드에 대한 변경 여부는 사람이 직접 판단할 수 없다.
③ Triggers on Tables : 데이터베이스 트리거를 활용해 사전에 등록된 다수의 대상 시스템에 변경 데이터를 배포하는 형태로 CDC를 구현하는 기법이다.
④ Time/Version/Status on Rows : 타임스탬프, 버전 넘버, 상태 값을 모두 활용하는 기법으로 정교한 쿼리 생성은 불가능할 수 있다.

정답 ③
해설
① Log scanner on database : 로그에 대한 스캐닝 및 변경 내역에 대한 해석을 통해 CDC 매커니즘을 구현하는 기법으로, 데이터베이스 스키마의 변경을 필요로 하지 않는다.
② Status on Rows : 데이터 변경 여부에 대해 True / False의 논리값으로 표현하는 컬럼을 두는 기법으로, 레코드에 대한 변경 여부는 사람이 직접 판단할 수 있다.
④ Time/Version/Status on Rows : 타임스탬프, 버전 넘버, 상태 값을 모두 활용하는 기법으로 정교한 쿼리 생성은 가능하다.

⚑ 문제3

다음 중 EAI에 대한 설명으로 부적절한 것은?
① EAI는 어댑터, 버스, 브로커, 트랜스 포머로 구성된다.
② Hub and Spoke 방식을 기반으로 하기 때문에 복잡한 데이터 연계 경로가 발생할 수 있다.
③ EAI의 구현 유형 중 Meditation은 EAI 엔진이 중개자로 동작한다.
④ EAI를 활요하면 지역적으로 분리되어 있는 정보 시스템들 간의 데이터 동기화가 가능하게 된다.

정답 ②
해설
② Hub and Spoke 방식을 기반으로 하기 때문에 복잡한 데이터 연계 경로가 발생하지 않는다.
복잡한 데이터 연계 경로가 발생하는 것은 기존 point to point 방식이다.

⚑ 문제4

다음 중 NoSQL 솔루션 HBase에 대한 설명으로 가장 적절한 것은?
① 로우키에 대한 인덱싱만 지원하며 작은 데이터를 저장하는 용도로 사용하는 것은 적절하지 않다.
② 인메모리 기반의 대용량 데이터웨어하우스 시스템이며, 하이브와 호환되기 때문에 하이브SQL 질의와 사용자 정의함수를 사용할 수 있다.
③ HBase는 구글의 빅테이블을 본보기로 삼아 만들어졌으며, 자체적은 분산파일 시스템을 사용한다.
④ HBase는 NoSQL 기ㅜㅅㄹ에 해당하며, 표준 Anal-SQL을 지원한다.

정답 ①

⚑ 문제5

다음 중 Hadoop MapReduce에 대한 설명으로 부적절한 것은?
① JobTracker는 작업을 다수의 Task로 쪼갠 후 내부적으로 스케줄링해 큐(Queue)에 저장하지만, 그 Task들에 대한 데이터 지역성에는 관여하지 않는다.
② 클라이언에서 하둡 작업을 실행하면, 프로그램 바이너리와 입출력 디렉터리와 같은 환경 정보들이 JobTracker에게 전송된다.
③ 하둡은 네임노드, 데이터노드, JobTracker, TaskTracker로 구성되어 있다.
④ TaskTracker는 Response 메시지의 내용을 분석해 프로세스를 Fork해 자기에게 할당된 Task를 처리한다.

정답 ①
해설
① JobTracker는 작업을 다수의 Task로 쪼갠 후 내부적으로 스케줄링해 큐(Queue)에 저장하고, 그 Task들에 대한 데이터 지역성에 관여한다.

✐ 3과목 : 데이터 분석 기획

⚑ 문제1

분석 기회 발굴의 범위 중 시장니즈 탐색 관점에서 고객니즈의 변화에 해당하는 것이 아닌 것은?
① 고객
② 채널
③ 영향자들
④ 대체제

정답 ④
해설
④ 대체제는 경쟁자 확대 관점이다.

⚑ 문제2

다음 중 CRISP-DM에 대한 설명으로 부적절한 것은?
① 1996년 유럽 연합의 ESPRIT에서 있었던 프로젝트에서 시작되었다.
② 각 단계는 폭포수 모델처럼 구성되어 있다.
③ 모델링 과정에서 데이터 셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있다.
④ CRISP-DM은 계층적 프로세스 모델로써 4레벨로 구성되어 있다.

정답 ②
해설
CRISP-DM 프로세스의 각 단계는 폭포수 모델처럼 일방향으로 구성되어 있지 않고, 단계 간 피드백을 통해 단계별 완성도를 높인다.

⚑ 문제3

마스터 플랜 수립 시점에서 데이터 분석의 지속적인 적용과 확산을 위한 거버넌스 체계의 구성 요소가 아닌 것은?
① Process
② System
③ Organization
④ Data Resource

정답 ④
해설
마스터 플랜 수립 시점에서 데이터 분석의 지속적인 적용과 확산을 위한 거버넌스 체계의 구성 요소는 Process, System, Organization과 Data Resource가 아닌 Human Resource가 있다.

⚑ 문제4

분석 조직을 갖추는 과정에서 조직 구성원의 역량을 고르게 갖추는 것이 무엇보다 중요하다. 이로 인해 분석 조직에서 필요한 인력 중 반드시 필요한 인력이 아닌 것은?
① 해당 비즈니스를 잘 이해하고 분석 요소를 찾고 협의할 수 있는 비즈니스 인력
② 분석에 필요한 IT 기술 동향을 파악하고, 필요한 기술 아키텍처를 수립할 수 있는 IT 기술 인력
③ 고급 통계 분석 기법을 이해하고 다양한 예측 모델링을 설계/검증할 수 있는 분석 전문 인력
④ 분석 조직에게 다양한 분석 기법에 대한 심도있는 교육을 할 수 있는 교육담당 인력

정답 ④
해설
분석 조직을 갖추기 위해 반드시 필요한 인력은 비즈니스 인력, IT 기술 인력, 분석 전문 인력이다. 그 외의 변화관리 인력과 교육담당 인력은 겸직이 가능한 인력들이다.

✐ 4과목 : 데이터 분석

⚑ 문제1

다음 중 감성분석에 대한 설명으로 부적절한 것은?
① 텍스트에 포한된 내용이 주관적인지 객관적인지를 먼저 판단해야 한다.
② 내용이 긍정적인지 부정적인지 판별하고 나의 상품이나 브랜드의 여론이 긍정적인지 부정적인지를 찾아내는데 활용된다.
③ 개별 문장의 분석에 오류가 나타나면 많은 문서를 가공하더라도 추이 파악에 어려움이 생기는 단점이 있는 분석 방법이다.
④ 영향력이 높은 대상자에게는 높은 가중치를 부여함으로써 더 정확한 감성지표를 계산할 수 있다.

정답 ①
해설
감성분석은 문장에서 사용된 단어의 긍정과 부정 여부에 따라 긍정적인 단어가 얼마나 많은지 여부로 문장을 긍정 또는 부정으로 평가하는 분석이다.

텍스트에 포한된 내용이 주관적인지 객관적인지를 먼저 판단할 필요가 없다.

⚑ 문제2

다음 중 관찰대상이 가지고 있는 속성의 크기를 측정하여 순서대로 대상의 순위를 나타내는 척도로 적절한 것은?
① 명목척도
② 순서척도
③ 구간척도
④ 비율척도

정답 ②

⚑ 문제3

다음 중 과대적합에 대한 설명으로 가장 부적절한 것은?
① 과대적합이 발생할 것으로 예상되면 학습을 종료하고 업데이트하는 과정을 반복해 과대적합을 방질할 수 있다.
② 과대적합은 분석 변수가 너무 많이 존재하고 분석 모델이 복잡할 때 발생한다.
③ 분석 데이터가 모집단의 특성을 설명하지 못하면 발생한다.
④ 생성된 모델은 분석 데이터에 최적화되었기 때문에 훈련 데이터의 작은 변화에 민감하게 반응하는 경우는 발생하지 않는다.

정답 ④
해설
생성된 모델이 훈련 데이터에 최적화되었기 때문에 훈련 데이터의 작은 변화에도 민감하게 반응한다.

⚑ 문제4

변수 A안에 벡터 ("a", "b", "c")가 있다고 하자, 결과값이 ("ad", "be", "cd")라고 나오게 하는 결과가 나오는 함수는?
① paste(A, d, e, d)
② paste(A, c("d", "e"))
③ paste(A, c("d"), c("e"))
④ A+d+E

정답 ②

⚑ 문제5

선형회귀분석을 실행하기 위해서는 데이터가 가지고 있는 특정 가정을 만족해야 의미가 있다고 할 수 있다. 선형회귀분석에서 전제로 하는 가정이 아닌 것은?
① 선형성
② 일치성
③ 정상성
④ 등분산성

정답 ②
해설
선형회귀분석에서 전제로 하는 가정 : 선형성, 정상성, 등분산성, 비상관성, 독립성

⚑ 문제6

시계열 분석에 대한 설명로 부적절한 것은?
① 시계열 분석에서 사용되는 모형은 크게 자기회귀모형(AR 모형)과 이동평균모형(MA 모형)으로 나눈다.
② 자기회귀모형에서 자기상관함수(ACF)는 빠르게 감소하고, 부분자기함수(PACF)는 어느 시점에서 절단점을 갖게 된다.
③ 이동평균모형에서 자기상관함수(ACF)는 절단점을 갖고, 부분자기상관함수(PACF)가 빠르게 감소함을 볼 수 잇따.
④ 자기회귀누적이동평균모형(ARIMA)은 정상시계열모형으로 차분이나 변환을 통해 AR 모형이나 MA 모형으로, 또는 둘을 합친 ARMA 모형으로 비정상화할 수 있다.

정답 ④
해설
④ 자기회귀누적이동평균모형(ARIMA)은 비정상시계열모형으로 차분이나 변환을 통해 AR 모형이나 MA 모형으로, 또는 둘을 합친 ARMA 모형으로 정상화할 수 있다.

⚑ 문제7

다음 중 대표적인 밀도 기반 군집분석 방법인 DBSCAN에 대한 설명으로 부적절한 것은?
① K-means와 같은 분할 방법에서 발전하였으나, 데이터의 분포를 통해 군집을 정하는 방법이다.
② 군집의 경계를 찾기 위해서는 밀도가 낮아지는 시점이 필요하여 실제 세계에서는 정확한 군집의 구조를 찾기 힘들다.
③ DBSCAN 알고리즘에는 두 가지 파라미터에 대한 정의가 필요하다. 첫 번째는 주변 공간에 대한 정의이며 두 번쨰는 그 주변 공간에 몇 개의 데이터가 존재해야 군집으로 설정할 것인지에 대한 정의가 필요하다.
④ DBSCAN 알고리즘은 군집과 노이즈를 분류하는 알고리즘으로 군집은 한 예상벡터로부터 접근 가능한 모든 데이터 집합이라고 정의된다.

정답 ①
해설
K-means와 같은 분할 방법에서 발전하였으나, 데이터의 분포가 아닌 밀도를 통해 군집을 정하는 방법이다.

✐ 5과목 : 데이터 시각화

⚑ 문제1

워들(워드 클라우드)와 같은 데이터 시각화를 사용하는 단계에 대한 설명으로 부적절한 것은?
① 계층 관계를 갖는 데이터나, 어떤 기준으로 묶인 데이터의 대부분은 형태를 변환해 연결고리를 찾아낼 수 있다.
② 여러 개의 데이터 명세를 보유한 경우, 연결 고리를 확인함으로써 명세들을 포괄해 탐색할 수 있는 차원과 측정값의 조합을 정리해야 한다.
③ 척도 문제가 발생하는 경우에는 실제 값을 변형해, 같은 공간에 표시해도 각각의 패턴이 명확하게 보이게끔 조정해야 한다.
④ 지표를 시각화 도구에 적용할 때에도 역시 지표의 단위가 시각화 도구의 표현 공간 상에 다른 데이터들과 함께 적절하게 표현될 수 있는 지 체크해야 한다.

정답 ④
해설
워들은 탐색 단계에서 비정형 데이터(텍스트 데이터) 측정값에서 관계를 탐색하기 위해 사용하는 시각화이다.
④는 분석 단계에 대한 설명이다.

⚑ 문제2

빅데이터 시각화 프로세스에 대한 설명으로 부적절한 것은?
① 구조화에서는 빅데이터에서 제공하는 데이터를 활용하여 사전 작업을 하면서 시각화의 목표가 될만한 것들을 발견하고 설정하기도 한다.
② 시각화에서는 시각화 툴에서 제공하는 다양한 그래프를 어떤 이유로, 왜 쓰는지, 어떻게 표현해야 하는지에 대해 설명하고자 한다.
③ 표현 및 정제 단계에서는 그래픽 능력이 요구되며, 이 단계가 바로 직접적인 시각 표현 단계라 볼 수 있다.
④ 시각표현에서는 시각화 툴로 선택한 그래프를 시각적으로 더 다듬거나 시각표현을 극대화하는 방안을 실험하면서 완성하게 된다.

정답 ③

⚑ 문제3

시각적 위계요소에 대한 설명이 부적절한 것은?
① 데이터는 불완전하고 비연속적이며, 완전한 메시지가 아니므로 정보 전달 측면에서의 가치는 없다.
② 서로 다른 데이터 간의 관계와 일정한 패턴을 가시화시킴으로써 정보를 보는 사람에게 데이터가 내포하는 의미를 전달한다.
③ 지식은 특정한 세부 사항 각각을 설명하기 때문에, 다양한 상황에서 적용하기 위해서는 지혜가 되어야 한다.
④ 지혜는 개인적 이해의 수준에 따라 결정되는 것으로 도달하기 어려운 단계이며, 자기 내면화한 지식이기 때문에 명시적인 언어로 상대방에게 전달하기 어렵다.

정답 ③
해설
경험을 통해 형성된 지식은 특정한 세부 사항만을 설명하는 것이 아니라, 다양한 상황에서 적용할 수 있게 일반화한 것이다.

⚑ 문제4

정보 디자인의 빅데이터 시각화 영역에 대한 설명으로 가장 부적절한 것은?
① 데이터 시각화의 주요 목적은 그래픽 의미를 이용해 명확하고 효과적으로 커뮤니케이션하기 위함이다.
② 정보 시각화는 보는 사람들이 좀 더 명확하게 의미를 이해할 수 있도록 돕는다.
③ 정보 디자인은 사람이 사용할 수 있는 효과적인 정보와 복잡하고 구조적이지 않은 기술 데이터를 시각적으로 표현하는 방법을 의미한다.
④ 인포그래픽은 데이터 시각화와는 확연히 구별될 정도로 원 데이터(Raw Data)를 취급하지 않는다.

정답 ②
해설
보는 사람들이 좀 더 명확하게 의미를 이해할 수 있도록 돕는 것은 정보 디자인이다.

⚑ 문제5

빅데이터 시각화 영역에 대한 설명으로 부적절한 것은?
① 메시지 전달 관점에서 데이터 시각화는 큰 범주에 해당하는 정보를 시각화하는 것이다.
② 빅데이터 시각화에서는 데이터를 직접적으로 전달하는 기능성에 초점을 맞춘 정보형 메시지를 전달하기 위한 데이터 시각화 작업을 하는 경향이 강하다.
③ 데이터 자체보다는 데이터를 기초로 해석된 의미의 설득형 메시지를 전달하기 위한 경우에는 인포그래픽에 해당하는 결과물이 도출될 수 있다.
④ 빅데이터 시각화의 경우에는 데이터를 기반으로 객관적 표현에 더 초점을 맞추는 경우가 많다.

정답 ①
해설
① 메시지 전달 관점에서 데이터 시각화가 아닌 정보 시각화는 큰 범주에 해당하는 정보를 시각화하는 것이다.

DMIS

Data + Math

이전 포스트

ADP 2019년 필기(12~15회) 기출 오답노트

다음 포스트

ADP 필기 모의고사 오답노트 (2)

ADP 필기

✐ 1과목 : 데이터 이해

⚑ 문제1

⚑ 문제2

⚑ 문제3

✐ 2과목 : 데이터 처리 기술 이해

⚑ 문제1

⚑ 문제2

⚑ 문제3

⚑ 문제4

⚑ 문제5

✐ 3과목 : 데이터 분석 기획

⚑ 문제1

⚑ 문제2

⚑ 문제3

⚑ 문제4

✐ 4과목 : 데이터 분석

⚑ 문제1

⚑ 문제2

⚑ 문제3

⚑ 문제4

⚑ 문제5

⚑ 문제6

⚑ 문제7

✐ 5과목 : 데이터 시각화

⚑ 문제1

⚑ 문제2

⚑ 문제3

⚑ 문제4

⚑ 문제5

ADP 2019년 필기(12~15회) 기출 오답노트

ADP 필기 기출 10, 11회 오답노트 (2)

0개의 댓글