ADP 필기 기출 11회 오답노트 (1)

DMIS·2023년 2월 20일
0

ADP 필기

목록 보기
7/13
post-thumbnail

✐ 1과목 : 데이터 이해

⚑ 문제1

다음 중 정보 관리 시스템의 능력을 넘어서는 정보량을 다루기 위해 필요한 정보만을 수집하여 효율성을 달성하는 것은?
① 사전처리
② 표본조사
③ 상관관계
④ 인과분석

정답
해설
그냥 사전처리의 정의를 말하고 고르라는 것인 듯한 문제

⚑ 문제2

다음 중 통찰력을 제공하는 분석 기술로 부적절한 것은?
① 모델링
② 추출
③ 최적화
④ 예측

정답
해설
추출은 통찰력을 제공하지는 않는다.

⚑ 문제3

빅데이터가 만들어낸 본질적인 변화에 대한 설명으로 적절한 것은?
ㄱ. 정해진 특정한 정보만 처리하는 것이 아니라 가능한 많은 데이터를 모으고, 다양한 형식으로 조합해 숨은 정보를 찾아내는 방식으로 전환
ㄴ. 폭발적인 데이터 증가와 더불어 처리비용 증가의 대안으로 전반적인 샘플링 분석 방식의 발전
ㄷ. 데이터의 양이 증가함에 따라 사소한 몇 개의 오류 데이터가 대세에 영향을 주지 못한다는 인식의 발전
ㄹ. 복잡한 상관관계 분석으로 발생하는 많은 시간과 비용을 줄이기 위해 인과관계 분석을 더욱 선호하게 되는 경향과 관련기술 발전
① ㄱ, ㄷ
② ㄱ, ㄹ
③ ㄴ, ㄷ
④ ㄴ, ㄹ

정답
해설
ㄱ. 사전처리에서 사후처리로의 변화
ㄷ. 질에서 양으로의 변화


✐ 2과목 : 데이터 처리 기술 이해

⚑ 문제1

다음 중 EAI에 대한 설명으로 가장 적절한 것은?
① EAI는 웹 서비스, XML 등의 표준 기술을 사용하여 서비스 중심으로 하나의 프로세스를 처리하기 위한 관련 시스템을 연계하는 기술이다.
② EAI는 이기종 플랫폼 환경 하의 어플리케이션 통합은 지원하지 않는다.
③ EAI는 기업 또는 여러 기업 간 이질적 정보 시스템들의 데이터를 연계함으로써 상호 동기화 되어 동작하도록 되어 있다.
④ EAI를 활용하면 기존 단위 업무 위주의 정보시스템 개발 시 정보시스템들 간 point to point 방식으로 데이터를 연계할 수 있다.

정답
해설
① EAI는 데이터를 연계한다.
② EAI는 어플리케이션 통합을 지원한다.
④ EAI는 기존 point to point 연계 방식과 달리 Hub and Spoke 연계 방식을 사용한다.

⚑ 문제2

다음 중 대규모 분산 병렬 처리 기술 중 하나인 하둡 에코시스템의 구성요소로 부적절한 것은?
① RAID System
② MapReduce
③ HDFS
④ YARN

정답
해설
①이 답이긴 한데, 복원된 문제에서는 ④가 YANN으로 적혀있어 정말 혼란스러웠던 문제

⚑ 문제3

MapReduce에 대한 설명으로 가장 적절한 것은?
① MapReduce 작업은 특별한 옵션을 주지 않으면 3개의 Map Task가 한 개의 블록을 대상으로 연산을 수행한다.
② Map 과정에서 생산된 중간 결과물들은 네임노드에서 시스템 환경에 따라 자동 할당된 Reduce Tank들이 받아와서 최종 결과물을 만들어 낸다.
③ MapReduce는 Map과 Reduce 함수 외의 Cirbar by 함수의 연산을 수행하여 입력과 출력을 처리한다.
④ MapReduce 연산은 연산의 병렳좌, 장애 복구 중의 복잡성을 추상화시켜서 개발자가 오직 핵심 기능 구현에만 집중할 수 있또록 고안되었다.

정답
해설
개발자를 위해 만들어졌다는 것을 기억하면 될 듯

⚑ 문제4

하둡과 데이터베이스의 연동 솔루션인 스쿱(Sqoop)에 대한 설명으로 부적절한 것은?
① 거의 대부분 NoSQL을 지원한다.
② 오라클, MySQL 등 거의 대부분의 관계형 데이터베이스를 지원한다.
③ 하둡과 데이터베이스간의 데이터 연동을 위해 수작업으로 스크립트를 작성해야 한다.
④ 하둡으로 데이터를 적재할 수 있다.

정답
해설
RDBMS와 하둡 간의 연동을 지원하므로 반정형, 비정형 데이터를 주로 사용하는 NoSQL은 거의 지원하지 않는다.

⚑ 문제5

분산 데이터 저장 기술이 아닌 것은?
① HDFS
② 아파치 Stinger
③ 데이터베이스 클러스터
④ Key-Value 저장소

정답
해설
아파치 Stinger는 저장 기술이 아닌 SQL on 하둡 기술이다.

⚑ 문제6

하둡 에코시스템과 관련된 설명으로 가장 적절한 것은?
① Flume-NG는 데이터가 발생하는 어플리케이션 단계, 발생한 데이터를 수집하는 단계, 수집한 데이터를 저장하는 단계, 데이터 저장소 보관 단계의 아키텍처로 구성된다.
② Sqoop은 Hadoop과 RDBMS 간의 데이터 연동을 지원하여 Import를 통해 RDBMS에 데이터를 적재하고 Export를 통해 HDFS에 데이터를 적재한다.
③ Hive는 HDFS 상의 데이터에 대하여 SQL을 통한 질의를 가능하게 하였고, 실제 업무에서 데이터를 실시간으로 조회하거나 처리하는 일에 널리 사용된다.
④ 임팔라, 아파치 드릴은 대표적인 SQL on Hadoop 분석 기술로서, 하둡 전문 회사인 맵알을 주축으로 진행되고 있는 프로젝트이다.

정답
해설
② Sqoop은 Hadoop과 RDBMS 간의 데이터 연동을 지원하여 Import를 통해 HDFS에 데이터를 적재하고 Export를 통해 RDBMS에 데이터를 적재한다.
③ Hive는 하이브QL을 통한 질의를 한다.
④ 임팔라는 클라우데라에서 개발을 주도하고있다.(이건 좀 너무하지 않나?)


✐ 3과목 : 데이터 분석 기획

⚑ 문제1

분석 성숙도 모델에 조직역량 부문의 활용단계 항목으로 가장 부적절한 것은?
① 분석 CoE 조직 운영
② 전문 담당부서에서 분석 수행
③ 관리자가 분석 수행
④ 분석기법 도입

정답
해설
①은 확산단계의 조직역량 부문 항목이다.

⚑ 문제2

수행하고 있는 분석 수행 프로세스와 노하우 등의 암묵지가 형식지화 되는 과정을 거쳐 분석 방법론으로 발전하게 된다. 이러한 과정을 가장 잘 설명하고 있는 것은?
① 형식화 → 체계화 → 내재화
② 내재화 → 체계화 → 형식화
③ 구체화 → 전략화 → 형식화
④ 형식화 → 전력화 → 구체화

정답
해설
발전 과정
1. 암묵지 -> (형식화) -> 형식지
2. 형식지 -> (체계화) -> 방법론
3. 방법론 -> (내재화) -> 암묵지

⚑ 문제3

상향식 접근 방법의 분석과제 도출 과정과 디자인 사고 프로세스의 단계로 연결의 적절한 것은?

  • 상향식 접근 방법 분석과제 도출 과정 : (ㄱ) ➡️ (ㄴ)
  • 디자인 사고 프로세스 상향식 접근 방법 단계 : (ㄷ)
    ① ㄱ. 최적화 ㄴ. 솔루션 ㄷ. 수렴
    ② ㄱ. 발견 ㄴ. 통찰 ㄷ. 수렴
    ③ ㄱ. 최적화 ㄴ. 솔루션 ㄷ. 발산
    ④ ㄱ. 발견 ㄴ. 통찰 ㄷ. 발산

정답
해설
디자인 사고 프로세스 상향식 접근 방법 단계는 발산적이다.

⚑ 문제4

프로토타이핑 접근법에 대한 설명으로 가장 적절한 것은?
① 문제가 정형화되어 있고 문제해결을 위한 데이터가 완벽하게 조직에 존재하는 경우 효과적이다.
② 신속하게 해결책이나 모형을 제시함으로써 이를 바탕으로 문제를 좀 더 명확하게 인식하고 필요한 데이터를 식별하여 구체화할 수 있게 하는 유용한 상향식 접근 방법이다.
③ 문제 정의가 불명확하거나 이전에 접해보지 못한 새로운 문제일 경우 적용하기 어렵다.
④ 문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식이다.

정답
해설


✐ 4과목 : 데이터 분석

⚑ 문제1

다음 중 회귀모형의 변수 선택 방법으로 사용할 수 있는 것으로 부적절한 것은?
① 모든 조합의 회귀분석
② Lasso 회귀분석
③ 단계적 변수 선택 방법
④ 주성분분석

정답
해설
④도 될 것 같은데 잘 모르겠다.

⚑ 문제2

다음 중 군집분석에서 유사도 측도에 대한 설명으로 부적절한 것은?
① 표준화거리는 각 변수를 해당 변수의 표준편차로 변환한 후 유클리드 거리르 계산한 거리이다.
② 맨하튼 거리는 각 방향 직각의 이동 거리 합으로 계산된다.
③ 유클리드 거리는 두 점을 잇는 가장 짧은 직선거리이다.
④ 마할라노비스 거리는 변수의 표준편차를 고려한 거리 측도이나 변수 간에 상관성이 있는 경우에는 표준화 거리 사용을 검토해야 한다.

정답
해설
④ 표준화 거리는 변수의 표준편차를 고려한 거리 측도이나 변수 간에 상관성이 있는 경우에는 마할라노비스 거리 사용을 검토해야 한다.

⚑ 문제3

데이터마이닝 단계 중 모델링 목적에 따라 목적변수를 정리하고 필요한 데이터를 데이터마이닝 소프트웨어에 적용할 수 있도록 준비하는 단계는?
① 데이터 가공
② 데이터 준비
③ 분석 기법의 적용
④ 목적 설정

정답
해설

  • 목적 설정
    • 데이터 마이닝을 위한 명확한 목적 설정
  • 데이터 준비
    • 다양한 데이터 준비
  • 데이터 가공
    • 모델링의 목적에 따라 목적 변수를 정리

⚑ 문제4

다음 중 데이터의 정규성을 확인하기 위한 방법으로 부적절한 것은?
① Shapiro-Wilks test
② 히스토그램
③ Q-Q Plot
④ Durbin Watson test

정답
해설
④ 더빈 왓슨 테스트는 회귀분석 후 잔차의 독립성을 확인하기 위한 방법이다.

⚑ 문제5

회귀분석에서 다중공선성은 모형의 일부 설명변수가 다른 설명변수와 상관되어 있을 때 발생하는 조건이다. 다른 설명변수들의 선형결합으로 표현할 수 있는 설명변수는 추가적인 정보를 제공하지 못하여 제 역할을 못한다. 다음 중 다중공선성에 대한 설명으로 부적절한 것은?
① 다중공선성은 회귀계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들기 때문에 문제가 된다.
② 높은 상관관계에 있는 설명변수에 대한 계수는 표본의 크기에 따라 달라질 수 있다. 높은 상관관계가 있는 설명변수는 변환을 한 다음 모형에서 사용해야 한다.
③ 분산확대인자(VIF)가 큰 경우 해당하는 회귀계수의 추정이 다중공선성으로 인해 피해를 입었다고 본다. 모든 VIF가 1이면 다중공선성이 없지만 일부 VIF가 4보다 크면 설명변수들 간에 완만한 상관관계가 있을 수 있다.
④ 높은 상관관계가 있는 오차항을 제거하면 높은 상관관계가 있는 다른 항의 추정계수에 영향을 미친다. 높은 상관관계가 있는 계수의 부호가 잘못되었을 수도 있다.

정답
해설
③ VIF가 5보다 크면 회귀계수가 잘못 추정된 것이다.

⚑ 문제6

다음 중 추정과 가설검정에 대한 설명으로 가장 부적절한 것은?
① 점추정은 모수가 특정한 값일 것이라고 추정하는 것이다.
② 구간추정이란 일정한 크기의 신뢰구간으로 모수가 특정한 구간에 있을 것이라고 선언하는 것으로 구해진 구간을 신뢰구간이라고 한다.
③ 귀무가설이 사실일 때, 관측된 검정통계랑의 값보다 귀무가설을 지지하는 방향으로 검정통계량이 나올 확률을 p값이라고 한다.
④ 기각역이란 대립가설이 맞을 때 그것을 받아들이는 확률을 의미한다.

정답
해설

  • 귀무가설
    • 비교하는 값과 차이가 없다. 동일하다. 를 기본 개념으로 하는 가설
  • 대립가설
    • 뚜렷한 증거가 있을 때 주장하는 가설
  • 검정통계량
    • 관찰된 표본으로부터 구하는 통계량으로, 검정 시 가설의 진위를 판단하는 기준
  • 유의수준(α\alpha)
    • 귀무가설을 기각하게 되는 확률의 크기로 '귀무가설이 옳은데도 이를 기각하는 확률의 크기'를 뜻한다.
  • 기각역(C)
    • 귀무가설이 옳다는 전제 하에서 구한 검정통계량의 분포에서 확률이 유의수준 α\alpha인 부분
    • 반대는 채택역이라고 한다.
  • p값(p-value)
    • 귀무가설이 맞다는 전제 하에, 통계값(statistics)이 실제로 관측된 값 이상일 확률을 의미한다.
    • 어떤 가설을 전제로 그 가설이 맞는다는 가정 하에, 내가 현재 구한 통계값이 얼마나 자주 나올 것인가

⚑ 문제7

다음 중 아래 문장의 빈 칸에 들어갈 말을 순서대로 나열한 것은?
"일반적으로 학습모형의 유연성이 클수록 분산은 ( ) 편향은 ( )"
① 낮고, 낮다.
② 높고, 낮다.
③ 높고, 높다.
④ 낮고, 높다.

정답
해설
"일반적으로 학습모형의 유연성이 클수록 분산은 높고, 편향은 낮다."

⚑ 문제8

R에서 제공하는 데이터 가공, 처리를 위한 패키지의 설명으로 가장 부적절한 것은?
① data.table 패키지는 데이터 프레임 처리 함수인 ddply 함수를 제공한다.
② sqldf 패키지는 R에서 표준 SQL 명령을 실행하고 결과를 가져올 수 있다.
③ plyr 패키지는 데이터의 분리, 결함 등 필수적인 데이터 처리 기능을 제공한다.
④ reshape 패키지는 melt와 cast를 이용하여 데이터를 재구성할 수 있다.

정답
해설
ddply 함수는 plyr 패키지에서 제공한다.

⚑ 문제9

다음 중 기법의 활용 분야가 나머지와 다른 하나는?
① 랜덤포레스트
② 인공신경망
③ SVM
④ SOM

정답
해설
SOM은 군집분석에 해당한다.

⚑ 문제10

연관규칙이란 항목등 간의 '조건 - 결과' 식으로 표현되는 유용한 패턴을 말한다. 이러한 패턴, 규칙을 발견해내는 것을 연관 분석이라 하는데, 다음 중 연관 분석에 대한 설명으로 부적절한 것은?
① 최소 지지도를 갖는 연관규칙을 찾는 대표적인 방법은 Apriori 알고리즘이다. 최소 지지도보다 큰 집합만을 대상으로 높은 지지도를 갖는 품목을 찾는 방법이다.
② 연관 분석을 통해 도출된 연관규칙은 사소하고 일반적으로 잘 알려진 사실이면서 분명하고 유용한 사실이어야 한다.
③ 도출된 연관규칙이 얼마나 유용한지 평가하기 위한 몇 가지 측정 자료로는 지지도, 신뢰도, 향상도이다.
④ 사건들이 어떤 순서로 일어나고 이 사건들 사이에 연관성이 있는지 알아내기 위해서는 판매 시점에서 기록된 고객의 성별, 나이 등의 정보가 필요하다.

정답
해설
연관 분석을 통해 도출된 연관규칙은 사소한 일반적으로 잘 알려진 사실이 아니라, 분명하고 유용해야 한다.


✐ 5과목 : 데이터 시각화

⚑ 문제1

다음 중 정보 표현을 위한 자크 베르탱의 그래픽 7요소에 해당하지 않는 것은?
① 위치
② 색
③ 명암
④ 기울기

정답
해설
자크 베르탱의 그래픽 7요소

  • 위치, 크기, 모양, 색, 명도, 기울기, 질감

⚑ 문제2

다음은 데이터 구성 원리에 대한 설명이다. '객체지향 관점에서의 접근'에 대한 설명으로 부적절한 것은?
① 데이터의 구조 자체를 설계 및 생성하여 이를 토대로 통찰을 얻는다.
② 특정 이벤트가 발생했을 때 생성되는 데이터의 생성과정을 논리적으로 분석한다.
③ 데이터의 구성과 생성 배경에 대해 고찰한다.
④ 모든 객체들은 행위와 고유 속성값을 갖는다.

정답
해설
②는 데이터 구성 원리 중 '이벤트 기록으로서의 접근'에 대한 설명이다.


profile
Data + Math

0개의 댓글