ADP 필기 모의고사 오답노트 (2)

DMIS·2023년 2월 24일
0

ADP 필기

목록 보기
10/13
post-thumbnail

✐ 1과목 : 데이터 이해

⚑ 문제1

개인정보의 식별성을 제거하거나 데이터 셋과 정보 주체의 연관성을 제거하는 과정을 개인정보 비식별화라고 한다. 비식별화가 적용된 아래의 예시에 해당하는 기법은 무엇인가?
"한국 데이터 진흥원" ➡️ "A1234"
① 가명처리
② 데이터마스킹
③ 범주화
④ 총계처리

정답
해설
가명처리는 식별할 수 없는 다른 값으로 대체하는 것이고, 데이터마스킹은 한국 데이터 진흥원이라면 한국 OOO OOO 과 같이 아예 마스킹 처리를 하는 것이다.

⚑ 문제2

일반적인 빅데이터의 정의와 가장 거리가 먼 것은?
① 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석 등 범위를 초과하는 규모의 데이터이다.
② 빅데이터는 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다.
③ 빅데이터 데이터의 양, 데이터 유형과 소스의 다양성, 데이터 수집과 처리 측면에서 속도가 급격히 증가하면서 나타났다.
④ 기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 하둡을 기반으로 하는 대용량 분산처리기술을 통해 창출하는 새로운 방식이다.

정답
해설
하둡은 빅데이트의 보완기술이고 특징일 뿐, 정의는 아니다.

⚑ 문제3

다음 중 빅데이터가 만들어 내는 변화로 부적절한 것은?
① 데이터의 사후처리보다 사전처리에 비중을 둔다.
② 데이터의 질보다 양을 중시한다.
③ 통계학에서 중요시 하는 인과관계보다 상관관계에 비중을 둔다.
④ 조사 방법론으로는 표본조사에서 전수조사에 비중을 둔다.

정답
해설
① 데이터의 사전처리보다 사후처리에 비중을 둔다.


✐ 2과목 : 데이터 처리 기술 이해

⚑ 문제1

다음 중 데이터베이스 클러스터에 대한 설명으로 가장 적절한 것은?
① 오픈소스인 MySQL 클러스터는 비공유형으로써 메모리 기반 데이터베이스의 클러스터링을 지원한다.
② 데이터베이스 클러스터를 구성했을 때 성능의 특정 파티션에서 장애가 발생하면 서비스가 중단될 수도 있다.
③ 공유 디스크 클러스터에서는 SAN과 같은 네트워크가 없어도 데이터의 공유가 가능하다.
④ 공유 디스크의 경우 클러스터의 규모가 커질 때 디스크의 성능이 높아진다는 것이 최대 장점이다.

정답
해설
Oracle RAC를 제외한 나머지는 비공유형으로 생각하자.

⚑ 문제2

CDC의 구현 기법에 관한 설명으로 가장 적절한 것은?
① Log scanner on database : 로그에 대한 스캐닝 및 변경 내역에 대한 해석을 통해 CDC 매커니즘을 구현하는 기법으로, 데이터베이스 스키마의 변경을 필요로 한다.
② Status on Rows : 데이터 변경 여부에 대해 True / False의 논리값으로 표현하는 컬럼을 두는 기법으로, 레코드에 대한 변경 여부는 사람이 직접 판단할 수 없다.
③ Triggers on Tables : 데이터베이스 트리거를 활용해 사전에 등록된 다수의 대상 시스템에 변경 데이터를 배포하는 형태로 CDC를 구현하는 기법이다.
④ Time/Version/Status on Rows : 타임스탬프, 버전 넘버, 상태 값을 모두 활용하는 기법으로 정교한 쿼리 생성은 불가능할 수 있다.

정답
해설
① Log scanner on database : 로그에 대한 스캐닝 및 변경 내역에 대한 해석을 통해 CDC 매커니즘을 구현하는 기법으로, 데이터베이스 스키마의 변경을 필요로 하지 않는다.
② Status on Rows : 데이터 변경 여부에 대해 True / False의 논리값으로 표현하는 컬럼을 두는 기법으로, 레코드에 대한 변경 여부는 사람이 직접 판단할 수 있다.
④ Time/Version/Status on Rows : 타임스탬프, 버전 넘버, 상태 값을 모두 활용하는 기법으로 정교한 쿼리 생성은 가능하다.

⚑ 문제3

다음 중 EAI에 대한 설명으로 부적절한 것은?
① EAI는 어댑터, 버스, 브로커, 트랜스 포머로 구성된다.
② Hub and Spoke 방식을 기반으로 하기 때문에 복잡한 데이터 연계 경로가 발생할 수 있다.
③ EAI의 구현 유형 중 Meditation은 EAI 엔진이 중개자로 동작한다.
④ EAI를 활요하면 지역적으로 분리되어 있는 정보 시스템들 간의 데이터 동기화가 가능하게 된다.

정답
해설
② Hub and Spoke 방식을 기반으로 하기 때문에 복잡한 데이터 연계 경로가 발생하지 않는다.
복잡한 데이터 연계 경로가 발생하는 것은 기존 point to point 방식이다.

⚑ 문제4

다음 중 NoSQL 솔루션 HBase에 대한 설명으로 가장 적절한 것은?
① 로우키에 대한 인덱싱만 지원하며 작은 데이터를 저장하는 용도로 사용하는 것은 적절하지 않다.
② 인메모리 기반의 대용량 데이터웨어하우스 시스템이며, 하이브와 호환되기 때문에 하이브SQL 질의와 사용자 정의함수를 사용할 수 있다.
③ HBase는 구글의 빅테이블을 본보기로 삼아 만들어졌으며, 자체적은 분산파일 시스템을 사용한다.
④ HBase는 NoSQL 기ㅜㅅㄹ에 해당하며, 표준 Anal-SQL을 지원한다.

정답

⚑ 문제5

다음 중 Hadoop MapReduce에 대한 설명으로 부적절한 것은?
① JobTracker는 작업을 다수의 Task로 쪼갠 후 내부적으로 스케줄링해 큐(Queue)에 저장하지만, 그 Task들에 대한 데이터 지역성에는 관여하지 않는다.
② 클라이언에서 하둡 작업을 실행하면, 프로그램 바이너리와 입출력 디렉터리와 같은 환경 정보들이 JobTracker에게 전송된다.
③ 하둡은 네임노드, 데이터노드, JobTracker, TaskTracker로 구성되어 있다.
④ TaskTracker는 Response 메시지의 내용을 분석해 프로세스를 Fork해 자기에게 할당된 Task를 처리한다.

정답
해설
① JobTracker는 작업을 다수의 Task로 쪼갠 후 내부적으로 스케줄링해 큐(Queue)에 저장하고, 그 Task들에 대한 데이터 지역성에 관여한다.


✐ 3과목 : 데이터 분석 기획

⚑ 문제1

분석 기회 발굴의 범위 중 시장니즈 탐색 관점에서 고객니즈의 변화에 해당하는 것이 아닌 것은?
① 고객
② 채널
③ 영향자들
④ 대체제

정답
해설
④ 대체제는 경쟁자 확대 관점이다.

⚑ 문제2

다음 중 CRISP-DM에 대한 설명으로 부적절한 것은?
① 1996년 유럽 연합의 ESPRIT에서 있었던 프로젝트에서 시작되었다.
② 각 단계는 폭포수 모델처럼 구성되어 있다.
③ 모델링 과정에서 데이터 셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있다.
④ CRISP-DM은 계층적 프로세스 모델로써 4레벨로 구성되어 있다.

정답
해설
CRISP-DM 프로세스의 각 단계는 폭포수 모델처럼 일방향으로 구성되어 있지 않고, 단계 간 피드백을 통해 단계별 완성도를 높인다.

⚑ 문제3

마스터 플랜 수립 시점에서 데이터 분석의 지속적인 적용과 확산을 위한 거버넌스 체계의 구성 요소가 아닌 것은?
① Process
② System
③ Organization
④ Data Resource

정답
해설
마스터 플랜 수립 시점에서 데이터 분석의 지속적인 적용과 확산을 위한 거버넌스 체계의 구성 요소는 Process, System, Organization과 Data Resource가 아닌 Human Resource가 있다.

⚑ 문제4

분석 조직을 갖추는 과정에서 조직 구성원의 역량을 고르게 갖추는 것이 무엇보다 중요하다. 이로 인해 분석 조직에서 필요한 인력 중 반드시 필요한 인력이 아닌 것은?
① 해당 비즈니스를 잘 이해하고 분석 요소를 찾고 협의할 수 있는 비즈니스 인력
② 분석에 필요한 IT 기술 동향을 파악하고, 필요한 기술 아키텍처를 수립할 수 있는 IT 기술 인력
③ 고급 통계 분석 기법을 이해하고 다양한 예측 모델링을 설계/검증할 수 있는 분석 전문 인력
④ 분석 조직에게 다양한 분석 기법에 대한 심도있는 교육을 할 수 있는 교육담당 인력

정답
해설
분석 조직을 갖추기 위해 반드시 필요한 인력은 비즈니스 인력, IT 기술 인력, 분석 전문 인력이다. 그 외의 변화관리 인력과 교육담당 인력은 겸직이 가능한 인력들이다.


✐ 4과목 : 데이터 분석

⚑ 문제1

다음 중 감성분석에 대한 설명으로 부적절한 것은?
① 텍스트에 포한된 내용이 주관적인지 객관적인지를 먼저 판단해야 한다.
② 내용이 긍정적인지 부정적인지 판별하고 나의 상품이나 브랜드의 여론이 긍정적인지 부정적인지를 찾아내는데 활용된다.
③ 개별 문장의 분석에 오류가 나타나면 많은 문서를 가공하더라도 추이 파악에 어려움이 생기는 단점이 있는 분석 방법이다.
④ 영향력이 높은 대상자에게는 높은 가중치를 부여함으로써 더 정확한 감성지표를 계산할 수 있다.

정답
해설
감성분석은 문장에서 사용된 단어의 긍정과 부정 여부에 따라 긍정적인 단어가 얼마나 많은지 여부로 문장을 긍정 또는 부정으로 평가하는 분석이다.

  • 텍스트에 포한된 내용이 주관적인지 객관적인지를 먼저 판단할 필요가 없다.

⚑ 문제2

다음 중 관찰대상이 가지고 있는 속성의 크기를 측정하여 순서대로 대상의 순위를 나타내는 척도로 적절한 것은?
① 명목척도
② 순서척도
③ 구간척도
④ 비율척도

정답

⚑ 문제3

다음 중 과대적합에 대한 설명으로 가장 부적절한 것은?
① 과대적합이 발생할 것으로 예상되면 학습을 종료하고 업데이트하는 과정을 반복해 과대적합을 방질할 수 있다.
② 과대적합은 분석 변수가 너무 많이 존재하고 분석 모델이 복잡할 때 발생한다.
③ 분석 데이터가 모집단의 특성을 설명하지 못하면 발생한다.
④ 생성된 모델은 분석 데이터에 최적화되었기 때문에 훈련 데이터의 작은 변화에 민감하게 반응하는 경우는 발생하지 않는다.

정답
해설
생성된 모델이 훈련 데이터에 최적화되었기 때문에 훈련 데이터의 작은 변화에도 민감하게 반응한다.

⚑ 문제4

변수 A안에 벡터 ("a", "b", "c")가 있다고 하자, 결과값이 ("ad", "be", "cd")라고 나오게 하는 결과가 나오는 함수는?
① paste(A, d, e, d)
② paste(A, c("d", "e"))
③ paste(A, c("d"), c("e"))
④ A+d+E

정답

⚑ 문제5

선형회귀분석을 실행하기 위해서는 데이터가 가지고 있는 특정 가정을 만족해야 의미가 있다고 할 수 있다. 선형회귀분석에서 전제로 하는 가정이 아닌 것은?
① 선형성
② 일치성
③ 정상성
④ 등분산성

정답
해설
선형회귀분석에서 전제로 하는 가정 : 선형성, 정상성, 등분산성, 비상관성, 독립성

⚑ 문제6

시계열 분석에 대한 설명로 부적절한 것은?
① 시계열 분석에서 사용되는 모형은 크게 자기회귀모형(AR 모형)과 이동평균모형(MA 모형)으로 나눈다.
② 자기회귀모형에서 자기상관함수(ACF)는 빠르게 감소하고, 부분자기함수(PACF)는 어느 시점에서 절단점을 갖게 된다.
③ 이동평균모형에서 자기상관함수(ACF)는 절단점을 갖고, 부분자기상관함수(PACF)가 빠르게 감소함을 볼 수 잇따.
④ 자기회귀누적이동평균모형(ARIMA)은 정상시계열모형으로 차분이나 변환을 통해 AR 모형이나 MA 모형으로, 또는 둘을 합친 ARMA 모형으로 비정상화할 수 있다.

정답
해설
④ 자기회귀누적이동평균모형(ARIMA)은 비정상시계열모형으로 차분이나 변환을 통해 AR 모형이나 MA 모형으로, 또는 둘을 합친 ARMA 모형으로 정상화할 수 있다.

⚑ 문제7

다음 중 대표적인 밀도 기반 군집분석 방법인 DBSCAN에 대한 설명으로 부적절한 것은?
① K-means와 같은 분할 방법에서 발전하였으나, 데이터의 분포를 통해 군집을 정하는 방법이다.
② 군집의 경계를 찾기 위해서는 밀도가 낮아지는 시점이 필요하여 실제 세계에서는 정확한 군집의 구조를 찾기 힘들다.
③ DBSCAN 알고리즘에는 두 가지 파라미터에 대한 정의가 필요하다. 첫 번째는 주변 공간에 대한 정의이며 두 번쨰는 그 주변 공간에 몇 개의 데이터가 존재해야 군집으로 설정할 것인지에 대한 정의가 필요하다.
④ DBSCAN 알고리즘은 군집과 노이즈를 분류하는 알고리즘으로 군집은 한 예상벡터로부터 접근 가능한 모든 데이터 집합이라고 정의된다.

정답
해설
K-means와 같은 분할 방법에서 발전하였으나, 데이터의 분포가 아닌 밀도를 통해 군집을 정하는 방법이다.


✐ 5과목 : 데이터 시각화

⚑ 문제1

워들(워드 클라우드)와 같은 데이터 시각화를 사용하는 단계에 대한 설명으로 부적절한 것은?
① 계층 관계를 갖는 데이터나, 어떤 기준으로 묶인 데이터의 대부분은 형태를 변환해 연결고리를 찾아낼 수 있다.
② 여러 개의 데이터 명세를 보유한 경우, 연결 고리를 확인함으로써 명세들을 포괄해 탐색할 수 있는 차원과 측정값의 조합을 정리해야 한다.
③ 척도 문제가 발생하는 경우에는 실제 값을 변형해, 같은 공간에 표시해도 각각의 패턴이 명확하게 보이게끔 조정해야 한다.
④ 지표를 시각화 도구에 적용할 때에도 역시 지표의 단위가 시각화 도구의 표현 공간 상에 다른 데이터들과 함께 적절하게 표현될 수 있는 지 체크해야 한다.

정답
해설
워들은 탐색 단계에서 비정형 데이터(텍스트 데이터) 측정값에서 관계를 탐색하기 위해 사용하는 시각화이다.
④는 분석 단계에 대한 설명이다.

⚑ 문제2

빅데이터 시각화 프로세스에 대한 설명으로 부적절한 것은?
① 구조화에서는 빅데이터에서 제공하는 데이터를 활용하여 사전 작업을 하면서 시각화의 목표가 될만한 것들을 발견하고 설정하기도 한다.
② 시각화에서는 시각화 툴에서 제공하는 다양한 그래프를 어떤 이유로, 왜 쓰는지, 어떻게 표현해야 하는지에 대해 설명하고자 한다.
③ 표현 및 정제 단계에서는 그래픽 능력이 요구되며, 이 단계가 바로 직접적인 시각 표현 단계라 볼 수 있다.
④ 시각표현에서는 시각화 툴로 선택한 그래프를 시각적으로 더 다듬거나 시각표현을 극대화하는 방안을 실험하면서 완성하게 된다.

정답

⚑ 문제3

시각적 위계요소에 대한 설명이 부적절한 것은?
① 데이터는 불완전하고 비연속적이며, 완전한 메시지가 아니므로 정보 전달 측면에서의 가치는 없다.
② 서로 다른 데이터 간의 관계와 일정한 패턴을 가시화시킴으로써 정보를 보는 사람에게 데이터가 내포하는 의미를 전달한다.
③ 지식은 특정한 세부 사항 각각을 설명하기 때문에, 다양한 상황에서 적용하기 위해서는 지혜가 되어야 한다.
④ 지혜는 개인적 이해의 수준에 따라 결정되는 것으로 도달하기 어려운 단계이며, 자기 내면화한 지식이기 때문에 명시적인 언어로 상대방에게 전달하기 어렵다.

정답
해설
경험을 통해 형성된 지식은 특정한 세부 사항만을 설명하는 것이 아니라, 다양한 상황에서 적용할 수 있게 일반화한 것이다.

⚑ 문제4

정보 디자인의 빅데이터 시각화 영역에 대한 설명으로 가장 부적절한 것은?
① 데이터 시각화의 주요 목적은 그래픽 의미를 이용해 명확하고 효과적으로 커뮤니케이션하기 위함이다.
② 정보 시각화는 보는 사람들이 좀 더 명확하게 의미를 이해할 수 있도록 돕는다.
③ 정보 디자인은 사람이 사용할 수 있는 효과적인 정보와 복잡하고 구조적이지 않은 기술 데이터를 시각적으로 표현하는 방법을 의미한다.
④ 인포그래픽은 데이터 시각화와는 확연히 구별될 정도로 원 데이터(Raw Data)를 취급하지 않는다.

정답
해설
보는 사람들이 좀 더 명확하게 의미를 이해할 수 있도록 돕는 것은 정보 디자인이다.

⚑ 문제5

빅데이터 시각화 영역에 대한 설명으로 부적절한 것은?
① 메시지 전달 관점에서 데이터 시각화는 큰 범주에 해당하는 정보를 시각화하는 것이다.
② 빅데이터 시각화에서는 데이터를 직접적으로 전달하는 기능성에 초점을 맞춘 정보형 메시지를 전달하기 위한 데이터 시각화 작업을 하는 경향이 강하다.
③ 데이터 자체보다는 데이터를 기초로 해석된 의미의 설득형 메시지를 전달하기 위한 경우에는 인포그래픽에 해당하는 결과물이 도출될 수 있다.
④ 빅데이터 시각화의 경우에는 데이터를 기반으로 객관적 표현에 더 초점을 맞추는 경우가 많다.

정답
해설
① 메시지 전달 관점에서 데이터 시각화가 아닌 정보 시각화는 큰 범주에 해당하는 정보를 시각화하는 것이다.

profile
Data + Math

0개의 댓글