빅데이터분석기사 필기 오답노트 - 2과목(빅데이터 탐색)

DMIS·2022년 7월 2일
0

빅데이터분석기사

목록 보기
2/4
post-thumbnail

최종모의고사 1회

문제1

데이터 결측값 처리 방법에서 단순 확률 배치법이란 평균 대치법에서 관측된 자료를 토대로 추정된 통계량으로 결측값을 대치할 때 어떤 적절한 확률값을 부여한 후 대치하는 방법이다. 다음 중 단순 확률 대치법의 유형으로 가장 적절한 것은 무엇인가?
① 평균 대치법
② 핫덱(Hot-Deck) 대체
③ 완전 분석법
④ 다중 대치법

정답
해설
단순 확률 대치법에는 핫덱(Hot-Deck) 대체, 콜드덱(Cold-Deck) 대체, 혼합방법이 있다.

  • 핫덱(Hot-Deck) 대체는 무응답을 현재 진행 중인 연구에서 '비슷한' 성향을 가진 응답자의 지표로 대체하는 방법이며 표본조사에서 주로 사용되는 기법이다.

문제2

다음 중 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 점 추정의 조건으로 가장 부적절한 것은 무엇인가?
① 불편성
② 사용성
③ 일치성
④ 충족성

정답
해설
점 추정의 조건에는 불편성, 효율성, 일치성, 충족성이 있다.

문제3

가설검정에 대한 설명으로 가장 옳지 않은 것은 무엇인가?
① 대립 가설은 H0H_0으로 표기하고, 귀무가설은 H1H_1로 표기한다.
② 귀무가설은 현재까지 주장되어 온 것이거나 기존과 비교하여 변화 혹은 차이가 없음을 나타내는 가설이다.
③ 대립가설을 연구가설이라고 한다.
④ 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설은 대립가설이다.

정답
해설
대립 가설은 H1H_1로 표기하고, 귀무가설은 H0H_0으로 표기한다.

문제4

다음 중 표본추출 기법에 대하여 설명한 것으로 가장 부적절한 것은 무엇인가?
① 단순 무작위 추출 : 200개의 구술에서 무작위로 20개의 구슬을 추출
② 계통 추출 : 100명의 교육 참석자에게 이벤트 쿠폰을 나눠주고 자리가 2로 끝나는 사람들을 선정
③ 층화 추출 : 연령별 여론 조사를 위해 연령대를 나누고, 각 연령대에서 무작위로 50명씩 선정
④ 군집 추출 : 검은색, 흰색, 빨간색 구슬을 무작위로 추출

정답
해설
군집 추출은 모집단을 여러 군집으로 나누고, 일부 군집의 전체를 추출하는 방식이다.

  • 예시 : 100개의 구슬에 무작위로 검은색, 흰색, 빨간색을 칠하고 빨간색의 구슬을 모두 추출

최종모의고사 2회

문제1

다음 중 실시간으로 발생하는 이벤트 처리에 대한 결괏값을 수집하고 처리하는 기술은 무엇인가?
① CEP
② 맵리듀스
③ ETL
④ 피그

정답
해설
실시간 이벤트 처리 기술에는 CEP(Complex Event Processing)가 있다.
CEP를 통한 IoT 센싱 데이터, 로그, 음성 데이터 등 실시간 데이터 처리가 가능하다.

문제2

다음 중 특정 모델링 기법에 의존하지 않고 데이터의 통계적 특성으로부터 변수를 택하는 기법으로 적절한 것은 무엇인가?
① 필터 기법
② 임베디드 기법
③ 라쏘
④ 릿지

정답
해설
다음 중 특정 모델링 기법에 의존하지 않고 데이터의 통계적 특성으로부터 변수를 택하는 기법은 필터 기법이다.

문제3

포아송 분포에서 사건 발생 확률이 λ\lambda이고 사건이 일어나는 횟수를 nn이라고 할 때, 기댓값과 분산은 얼마인가?
① 기댓값 : λ\lambda, 분산 : λ\lambda
② 기댓값 : 1λ\dfrac 1\lambda, 분산 : npnp
③ 기댓값 : λ\lambda, 분산 : npnp
④ 기댓값 : 1λ\dfrac 1\lambda, 분산 : λ\lambda

정답
해설
포아송 분포는 다음과 같다.
P=λneλn!P=\dfrac{\lambda^n e^{-\lambda}}{n!}

최종모의고사 3회

문제1

다음 중 데이터 결측값을 처리하는 방법 중 단순 대치법에 대한 설명으로 가장 올바르지 않은 것은?
① 단순 대치법은 결측값을 그럴듯한 값으로 대치하는 통계적 기법이다.
② 단순 대치법의 종류에는 완전 분석법, 평균 대치법, 단순 확률 대치법이 있다.
③ 평균 대치법의 종류에는 핫뎃 대체, 콜드덱 대체, 혼합 방법이 있다.
④ 단순 확률 대치법은 평균 대치법에서 관측된 자료를 토대로 추정된 통계량으로 결측값을 대치할 때 어떤 적절한 확률값을 부여한 후 대치하는 방법이다.

정답
해설

  • 핫덱 대체, 콜드덱 대체, 혼합 방법은 단순 확률 대치법이다.
  • 평균 대치법의 종류에는 비 조건부 평균 대치법과 조건부 평균 대치법 등이 있다.

문제2

다음의 임베디드 기법들에 대한 설명으로 가장 올바르지 않은 것은?
① 라쏘 : 가중치의 절댓값의 합을 최소화 하는 것을 추가적인 제약조건으로 하는 방법이다.
② 릿지 : L1-norm을 통해 제약을 주는 방법이다.
③ 엘라스틱 넷 : 라쏘와 릿지 두 개를 선형 결합한 방법이다.
④ SelectFromModel : 의사결정나무 기반 알고리즘에서 피처를 추출하는 방법이다.

정답
해설

  • L1-norm을 통해 제약을 주는 방법은 라쏘이다.
  • 릿지는 L2-norm을 통해 제약을 주는 방법이다.

문제3

데이터 분포의 모양이 왼쪽 편포(왼쪽 꼬리 분포)일 경우에 평균과 중위수, 최빈수의 크기를 가장 바르게 설명한 것은 무엇인가?
① 평균<최빈수<중위수
② 평균<중위수<최빈수
③ 중위수<평균<최빈수
④ 중위수<최빈수<평균

정답
해설

  • 왼쪽 편포(왼쪽 꼬리 분포)일 경우 평균<중위수<최빈수이다.
  • 편포와 상관없이 중위수는 항상 가운데에 있다.
    • 따라서 원 문제에서 2번을 제외한 나머지 선택지는 답이 될 수 없다.

문제4

건전지를 대량 생산하는 제조 회사의 건전지 16개를 표본추출하여 수명을 조사하였더니 평군이 25시간이고 표준편차가 2시간이었다. 모집단이 정규분포를 따른다고 가정하였을 때 이 제조회사 건전지의 평균 수명에 대한 95% 신뢰 수준은 다음 중 무엇인가? (t-분포표는 다음과 같으며 계산 결과는 소수 셋째 자리에서 반올림하여라.)

23.93μ26.0723.93 \le \mu \le 26.07
23.93μ25.9823.93 \le \mu \le 25.98
24.12μ25.8824.12 \le \mu \le 25.88
24.12μ26.0724.12 \le \mu \le 26.07

정답
해설

문제5

A 버스 정류장에서 4분에 2명씩 승객이 온다. A 버스 정류장에 승객이 2분 동안 1명 이내로 올 확률을 구하시오. (e는 자연상수)
1e\dfrac1e

2e\dfrac2e
ee
2e22e^2

정답
해설
4분에 2명씩 승객이 오므로 2분에 1명씩 승객이 온다고 할 수 있다.
따라서 λ=1\lambda=1이다.
이때 승객이 2분 동안 1명 이내로 올 확률은

(2분 동안 1명 올 확률) + (2분 동안 0명 올 확률)

이므로
P=n=01λneλn!=10×e10!+11×e11!=1e+1e=2e\begin{aligned}P&=\displaystyle\sum_{n=0}^{1}\dfrac{\lambda^ne^{-\lambda}}{n!}\\[2ex]&=\dfrac{1^0\times e^{-1}}{0!}+\dfrac{1^1\times e^{-1}}{1!}\\[2ex]&=\dfrac 1e+\dfrac 1e\\[2ex]&=\dfrac 2e\end{aligned}

문제6

검정 통계량 및 이의 확률분포에 근거하여 귀무가설이 참일 때 귀무가설을 기각하게 되는 제1종 오류를 범할 확률은 다음 중 무엇인가?
pp-
1α1-\alpha
α\alpha
β\beta

정답
해설
검정 통계량 및 이의 확률분포에 근거하여 귀무가설이 참일 때 귀무가설을 기각하게 되는 제1종 오류를 범할 확률은 pp-값(p-Value)이다.

profile
Data + Math

0개의 댓글