ADP 필기 기출 10회 오답노트 (1)

DMIS·2023년 2월 19일
0

ADP 필기

목록 보기
6/13
post-thumbnail

✐ 1과목 : 데이터 이해

⚑ 문제1

데이터 사이언스와 통계학이 다른 점을 나열하였다. 다음 중 가장 부적절한 것은?
① 데이터 사이언스는 통계학과 달리 총체적 접근법을 사용한다.
② 정형 및 비정형을 포함한 다양한 유형의 데이터를 분석대상으로 한다.
③ 분석뿐만 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함한다.
④ 기존 통계학에 데이터 마이닝을 접목한 새로운 학문이다.

정답
해설
기존 통계학에 데이터 마이닝 뿐만 아니라 소프트 스킬까지 접목한 학문인 듯

⚑ 문제2

다음 중 사회기반구조로써 데이터베이스가 구축되어 활용되고 있는 응용 시스템은?
① CRM
② NEIS
③ ERP
④ KMS

정답
해설
NEIS는 공교육관련 모든 자료

⚑ 문제3

빅데이터의 위기 요인과 통제방안을 서로 연결한 것 중 잘못 연결된 것은?
ㄱ. 사생활 침해 - 동의제에서 책임제로의 변화
ㄴ. 책임원칙 훼손 - 알고리즘 접근 허용
ㄷ. 데이터 오용 - 정보선택 옵션 제공
① ㄱ, ㄴ, ㄷ
② ㄱ, ㄷ
③ ㄱ, ㄴ
④ ㄴ, ㄷ

정답
해설


✐ 2과목 : 데이터 처리 기술 이해

⚑ 문제1

다음 중 CPU 가상화에 대한 설명으로 적절한 것은?
① 완전 가상화는 CPU를 제외한 모든 자원을 하이퍼바이저가 직접 제어, 관리한다.
② 현재 가상화는 CPU 자원만 지원한다.
③ 완전 가상화는 운영체계의 수정이 필요하기 때문에 설치할 수 있는 운영체제에 제한이 있다.
④ 반가상화는 privileged 명령어를 게스트 운영체제에서 hypercall로 하이퍼바이저에게 전달하고, 하이퍼바이저는 hypercall에 대해서 privileged 레벨에 상관없이 하드웨어로 명령을 수행시킨다.

정답
해설
privileged 레벨에 상관없이 하드웨어로 명령을 수행시킨다. <- 이 부분이 틀린 것 같음

⚑ 문제2

다음 중 NoSQL에 대한 설명으로 적절한 것은?
① NoSQL은 관계형 데이터 모델을 사용하지 않고 일반적으로 스키마를 강제 적용하지 않는다.
② NoSQL을 사용하면 언제나 관계형 데이터베이스보다 좋은 성능을 얻을 수 있다.
③ NoSQL의 성능을 향상시키기 위해서는 더 빠른 하드웨어로 확장해야 한다.
④ NoSQL 중 Key-value DB 방식은 주로 JSON이나 XML 형식의 문서와 같은 비정형 데이터를 저장하도록 설계되었다.

정답
해설
② : 언제나 좋은 성능이라고 확신하지 못한다.
③ : 아닐 듯
④ : JSON, XML은 반정형 데이터

⚑ 문제3

다음 중 ETL의 설명으로 부적절한 것은?
① ETL은 데이터 이동과 변환 절차에 관련된 업계 표준 용어이다.
② Extraction은 하나 또는 그 이상의 데이터 원천들로부터 데이터를 획득할 수 있는 과정이다.
③ Load는 변환 단계 처리가 완료된 데이터의 분석을 위하여 메모하여 적재하는 과정이다.
④ Transformation 데이터 클렌징, 형식변환, 표준화, 통합 또는 다수의 어플리케이션에 내장된 비즈니스 룰을 적용하는 과정이다.

정답
해설
Loading은 변형 단계 처리가 완료된 데이터를 특정 목표 시스템에 적재하는 것이다.

⚑ 문제4

다음 중 대규모 분산 병렬 처리기술 중 하나인 하둡의 특징에 관한 설명으로 적절한 것은?
① 하둡은 최대 3000대까지 서버 클러스터를 구성할 수 있다.
② MapReduce는 MapReduce라는 하나의 프로그래밍 인터페이스만 구현하면 동작하므로 개발자는 비즈니스 로직 개발에만 집중할 수 있다.
③ HDFS에 저장되는 데이터는 별도의 설정을 하지 않으면, 3중 복제가 되어 서로 다른 블록 서버에 저장된다.
④ 하둡 에코시스템에서 사용하는 대용량 SQL 질의 기술로는 Sqoop이 대표적이다.

정답
해설


✐ 3과목 : 데이터 분석 기획

⚑ 문제1

다음 중 분석 거버넌스 체계 구성요소로 보기 어려운 것은?
① 과제 기획운영 프로세스
② 분석의 데이터 및 추진 조직
③ 과제 예산 및 비용 집행
④ IT 시스템 및 마인드 육성 체계

정답
해설
분석 거버넌스 체계 구성요소

  • 분석 기획 및 관리 수행 조직(Organization)
  • 과제 기획 및 운영 프로세스(Process)
  • 분석 관련 시스템(System)
  • 데이터(Data)
  • 분석 관련 교육 및 마인드 육성 체계(Human Resource)
    따라서 ③이 보기 어렵다.

⚑ 문제2

다음 중 비즈니스 모델 캔버스의 9개 요소를 5개의 분석과제 발굴영역과 연결한 것 중 잘못 연결한 것은?
① 업무 - 비용
② 제품 - 가치 제안
③ 고객 - 수익
④ 지원인프라 - 핵심자원

정답
해설
5개의 분석과제 발굴영역 : 업무, 제품, 고객, 규제와 감사, 지원인프라

  • 업무 : 내부 프로세스 및 주요 자원 관련 주제 도출
  • 제품 : 제품, 서비스를 개선하기 위한 주제 도출
  • 고객 : 사용자 및 고객, 이를 제공하는 채널의 관점에서 주제 도출
    • 여기서 유통 채널은 속하지 않는다.
  • 규제와 감사 : 프로세스 중 발생하는 규제 및 보안의 관점에서 주제 도출
  • 지원인프라 : 시스템 영역 및 이를 관리하는 인력의 관점에서 주제 도출
    • 여기서 핵심자원은 속하지 않는다.

✐ 4과목 : 데이터 분석

⚑ 문제1

사회 연결망 분석에서 관계의 방향이 존재하는 방향(directed) 그래프를 분석할 때는 연결정도 중심성을 구분할 수 있다. 다음 중 어떤 노드 A가 다른 노드들로부터 관계를 받는 정도를 의미하는 중심성 지표로 적절한 것은?
① 인디그리 중심성
② 아웃디그리 중심성
③ 위세 중심성
④ 근접 중심성

정답
해설
① : 한 점이 다른 점으로부터 화살표를 받는 관계의 정도(영향을 받는 관계)
② : 어떤 점이 다른 점에 화살표를 주는 정도(영향을 주는 관계)
③, ④ : 일단 얘네는 벡터 느낌이 아니라 그냥 연결만 되어 있는 것을 전제로 하기 때문에 답이 될 수 없음

⚑ 문제2

아래는 변수들간의 상관계수를 나타낸다. 설명으로 부적잘한 것은?
① Salary와의 상관계수가 가장 작은 변수는 Errors이다.
② Salary와 CRuns의 상관계수는 통계적으로 유의하다.
③ Salary와 Errors간의 상관관계는 알 수 없다.
④ Salary를 종속변수로 나머지 변수들을 설명변수로 하는 회귀모형을 만들 때, 다중공선성이 존재할 가능성이 높다.

정답
해설
이 문제는 상관계수가 주어진 표, 그림이 없어도 풀 수 있다.
② : 상관계수가 통계적으로 유의한지는 p값을 통해서 알 수 있다. 그런데 이것은 표, 그림에 없다.

⚑ 문제3

다음 중 R의 데이터 구조 중 벡터에 대한 설명으로 적절한 것은?
① 벡터는 행렬과 유사한 2차원 목록 데이터 구조이다.
② 벡터는 하나의 스칼라 값 또는 하나 이상의 스칼라 원소들을 갖는 단순한 형태의 집합이다.
③ 벡터는 숫자로만 구성되어야 한다.
④ 벡터는 행과 열을 갖는 n×nn \times n 형태의 데이터를 나열한 데이터 구조이다.

정답
해설

  • 벡터는 숫자형이 될 수도 있고, 문자형이 될 수도, 논리형이 될 수도 있다.
  • 벡터의 정의에 따라 벡터는 하나의 스칼라 값 또는 하나 이상의 스칼라 원소들을 갖는 단순한 형태의 집합이다.

⚑ 문제4

실험의 목적에 맞게 관측해 자룔르 얻는 것을 측정이라 한다. 자료는 질적자료와 양적자료로 구분되는데 이에 대한 설명으로 부적절한 것은?
① 명목척도는 측정 대상이 그들이 속한 범주나 종류에 따라 분류될 수 있도록 수치나 부호를 부여하고 이를 통한 연산을 통해 의미를 부여한다. 성별, 아파트, 동호수 등이 있다.
② 서열척도는 개체간의 서열관계를 나타내는 척도이다. 셔츠 사이즈, 선호도 등이 있다.
③ 구간척도는 등간척도라고도 하며, 숫자 간의 간격이 산술적 의미를 가진다. 온도, 주가지수 등이 있다.
④ 비율척도는 숫자 간의 비율이 산술적 의미를 가진다. 키, 무게, 압력 등이 있다.

정답
해설
명목척도는 연산을 통해 의미를 부여할 수 없고, 그 자체로 의미를 갖는다.

⚑ 문제5

데이터마이닝의 대표적인 기능 중 이질적인 모집단을 세분화하는 기능으로 적절한 것은?
① 분류분석
② 예측분석
③ 군집분석
④ 연관분석

정답
해설
데이터마이닝의 기능

  • 분류 : 새롭게 나타난 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는 것
  • 추정 : 주어진 입력 데이터를 사용하여 알려지지 않은 결과의 값을 추정하는 것
  • 예측 : 미래의 양상을 예측하거나 미래의 값을 추정하는 것을 제외하면 분류나 추정과 동일한 의미
  • 연관분석(장바구니 분석) : 같이 팔리는 물건과 같이 아이템의 연관성을 파악하는 것
  • 군집 : 이질적인 모집단을 동질성을 지는 그룹별로 세분화하는 것
  • 기술 : 데이터가 암시하는 바를 설명하는 것

⚑ 문제6

다음 중 K-means 군집분석의 장점으로 적절한 것은?
① 사전에 주어진 목적이 없어도 결과 해석이 용이하다.
② 계층적 군집보다 많은 양의 자료를 다룰 수 있다.
③ 명목형 변수에도 적용할 수 있다.
④ 잡음이나 이상값에 영향을 받지 않는다.

정답
해설
K-means 군집 분석의 특징

  • 장점
    • 알고리즘이 단순하며, 빠르게 수행되어 분석 방법 적용이 용이하다.
    • 계층적 군집보다 많은 양의 데이터를 다룰 수 있다.
    • 내부 구조에 대한 사전정보가 없어도 의미있는 자료구조를 찾을 수 있다.
    • 다양한 형태의 데이터에 적용이 간으하다.
  • 단점
    • 군집의 수, 가중치와 거리 정의가 어렵다.
    • 사전에 주어진 목적이 없으므로 결과 해석이 어렵다.
    • 잡음이나 이상값의 영향을 많이 받는다.
    • 볼록한 형태가 아닌 군집이 존재할 경우 성능이 떨어진다.
    • 초기 군집 수 결정에 어려움이 있다.

⚑ 문제7

다음 중 텍스트 데이터를 구조화한 단계로 더 이상 추가적인 절차 없이 실험에 활용될 수 있는 상태를 나타내는 용어로 적절한 것은?
① Stamming
② Corpus
③ Stop Words
④ API

정답
해설

  • Stamming : 어간 추출
  • Corpus : 데이터의 정제, 통합, 선택, 변환의 과정을 거친 구조화된 단계로 더 이상 추가적인 절차 없이 실험에 활용될 수 있는 상태

⚑ 문제8

다음 중 신경망 모형에서 사용되는 활성화함수로 부적절한 것은?
① 계단 함수(ReLu)
② 엔트로피 함수
③ 소프트맥스 함수
④ 가우스 함수

정답
해설
② 엔트로피 함수는 불순도 측정에 사용된다.


✐ 5과목 : 데이터 시각화

⚑ 문제1

다음 중 정보 디자인의 빅데이터 시각화 영역에 대한 설명으로 부적절한 것은?
① 정보 디자인은 데이터의 디테일을 나타낸다.
② 데이터 시각화는 정보형 메시지를 전달한다.
③ 인포 시각화는 설득형 메시지를 전달한다.
④ 빅데이터 시각화는 정보형 메시지를 전달하는 경향이 강하다.

정답
해설

  • 정보 디자인은 데이터의 디테일을 나타내는 것이 아니다.
  • 정보 디자인은 의미만들기, 형태만들기, 맥락만들기와 같이 보는 사람들에게 명확하게 의미를 이해할 수 있도록 하는 것이다.

⚑ 문제2

다음 중 시각화 라이브러리가 아닌 것은?
① Flot
② D3.js
③ Timeline
④ Visual.ly

정답
해설
④는 라이브러리가 아닌 것 같음


profile
Data + Math

0개의 댓글