데이터 결측값 처리 방법에서 단순 확률 배치법이란 평균 대치법에서 관측된 자료를 토대로 추정된 통계량으로 결측값을 대치할 때 어떤 적절한 확률값을 부여한 후 대치하는 방법이다. 다음 중 단순 확률 대치법의 유형으로 가장 적절한 것은 무엇인가?
① 평균 대치법
② 핫덱(Hot-Deck) 대체
③ 완전 분석법
④ 다중 대치법
정답 ②
해설
단순 확률 대치법에는 핫덱(Hot-Deck) 대체, 콜드덱(Cold-Deck) 대체, 혼합방법이 있다.
- 핫덱(Hot-Deck) 대체는 무응답을 현재 진행 중인 연구에서 '비슷한' 성향을 가진 응답자의 지표로 대체하는 방법이며 표본조사에서 주로 사용되는 기법이다.
다음 중 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 점 추정의 조건으로 가장 부적절한 것은 무엇인가?
① 불편성
② 사용성
③ 일치성
④ 충족성
정답 ②
해설
점 추정의 조건에는 불편성, 효율성, 일치성, 충족성이 있다.
가설검정에 대한 설명으로 가장 옳지 않은 것은 무엇인가?
① 대립 가설은 으로 표기하고, 귀무가설은 로 표기한다.
② 귀무가설은 현재까지 주장되어 온 것이거나 기존과 비교하여 변화 혹은 차이가 없음을 나타내는 가설이다.
③ 대립가설을 연구가설이라고 한다.
④ 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설은 대립가설이다.
정답 ①
해설
대립 가설은 로 표기하고, 귀무가설은 으로 표기한다.
다음 중 표본추출 기법에 대하여 설명한 것으로 가장 부적절한 것은 무엇인가?
① 단순 무작위 추출 : 200개의 구술에서 무작위로 20개의 구슬을 추출
② 계통 추출 : 100명의 교육 참석자에게 이벤트 쿠폰을 나눠주고 자리가 2로 끝나는 사람들을 선정
③ 층화 추출 : 연령별 여론 조사를 위해 연령대를 나누고, 각 연령대에서 무작위로 50명씩 선정
④ 군집 추출 : 검은색, 흰색, 빨간색 구슬을 무작위로 추출
정답 ④
해설
군집 추출은 모집단을 여러 군집으로 나누고, 일부 군집의 전체를 추출하는 방식이다.
- 예시 : 100개의 구슬에 무작위로 검은색, 흰색, 빨간색을 칠하고 빨간색의 구슬을 모두 추출
다음 중 실시간으로 발생하는 이벤트 처리에 대한 결괏값을 수집하고 처리하는 기술은 무엇인가?
① CEP
② 맵리듀스
③ ETL
④ 피그
정답 ①
해설
실시간 이벤트 처리 기술에는 CEP(Complex Event Processing)가 있다.
CEP를 통한 IoT 센싱 데이터, 로그, 음성 데이터 등 실시간 데이터 처리가 가능하다.
다음 중 특정 모델링 기법에 의존하지 않고 데이터의 통계적 특성으로부터 변수를 택하는 기법으로 적절한 것은 무엇인가?
① 필터 기법
② 임베디드 기법
③ 라쏘
④ 릿지
정답 ①
해설
다음 중 특정 모델링 기법에 의존하지 않고 데이터의 통계적 특성으로부터 변수를 택하는 기법은 필터 기법이다.
포아송 분포에서 사건 발생 확률이 이고 사건이 일어나는 횟수를 이라고 할 때, 기댓값과 분산은 얼마인가?
① 기댓값 : , 분산 :
② 기댓값 : , 분산 :
③ 기댓값 : , 분산 :
④ 기댓값 : , 분산 :
정답 ①
해설
포아송 분포는 다음과 같다.
- : 정해진 시간/영역 안에 어떤 사건이 일어난 횟수에 대한 기댓값
- : 정해진 시간/영역 안에 사건이 일어나는 횟수
- 기댓값, 분산이 임을 유도하는 글
다음 중 데이터 결측값을 처리하는 방법 중 단순 대치법에 대한 설명으로 가장 올바르지 않은 것은?
① 단순 대치법은 결측값을 그럴듯한 값으로 대치하는 통계적 기법이다.
② 단순 대치법의 종류에는 완전 분석법, 평균 대치법, 단순 확률 대치법이 있다.
③ 평균 대치법의 종류에는 핫뎃 대체, 콜드덱 대체, 혼합 방법이 있다.
④ 단순 확률 대치법은 평균 대치법에서 관측된 자료를 토대로 추정된 통계량으로 결측값을 대치할 때 어떤 적절한 확률값을 부여한 후 대치하는 방법이다.
정답 ③
해설
- 핫덱 대체, 콜드덱 대체, 혼합 방법은 단순 확률 대치법이다.
- 평균 대치법의 종류에는 비 조건부 평균 대치법과 조건부 평균 대치법 등이 있다.
다음의 임베디드 기법들에 대한 설명으로 가장 올바르지 않은 것은?
① 라쏘 : 가중치의 절댓값의 합을 최소화 하는 것을 추가적인 제약조건으로 하는 방법이다.
② 릿지 : L1-norm을 통해 제약을 주는 방법이다.
③ 엘라스틱 넷 : 라쏘와 릿지 두 개를 선형 결합한 방법이다.
④ SelectFromModel : 의사결정나무 기반 알고리즘에서 피처를 추출하는 방법이다.
정답 ②
해설
- L1-norm을 통해 제약을 주는 방법은 라쏘이다.
- 릿지는 L2-norm을 통해 제약을 주는 방법이다.
데이터 분포의 모양이 왼쪽 편포(왼쪽 꼬리 분포)일 경우에 평균과 중위수, 최빈수의 크기를 가장 바르게 설명한 것은 무엇인가?
① 평균<최빈수<중위수
② 평균<중위수<최빈수
③ 중위수<평균<최빈수
④ 중위수<최빈수<평균
정답 ②
해설
- 왼쪽 편포(왼쪽 꼬리 분포)일 경우 평균<중위수<최빈수이다.
- 편포와 상관없이 중위수는 항상 가운데에 있다.
- 따라서 원 문제에서 2번을 제외한 나머지 선택지는 답이 될 수 없다.
건전지를 대량 생산하는 제조 회사의 건전지 16개를 표본추출하여 수명을 조사하였더니 평군이 25시간이고 표준편차가 2시간이었다. 모집단이 정규분포를 따른다고 가정하였을 때 이 제조회사 건전지의 평균 수명에 대한 95% 신뢰 수준은 다음 중 무엇인가? (t-분포표는 다음과 같으며 계산 결과는 소수 셋째 자리에서 반올림하여라.)
①
②
③
④
정답 ①
해설
- df : 자유도(n-1)
- t분포표 보는 법
A 버스 정류장에서 4분에 2명씩 승객이 온다. A 버스 정류장에 승객이 2분 동안 1명 이내로 올 확률을 구하시오. (e는 자연상수)
①
②
③
④
정답 ②
해설
4분에 2명씩 승객이 오므로 2분에 1명씩 승객이 온다고 할 수 있다.
따라서 이다.
이때 승객이 2분 동안 1명 이내로 올 확률은(2분 동안 1명 올 확률) + (2분 동안 0명 올 확률)
이므로
검정 통계량 및 이의 확률분포에 근거하여 귀무가설이 참일 때 귀무가설을 기각하게 되는 제1종 오류를 범할 확률은 다음 중 무엇인가?
① 값
②
③
④
정답 ①
해설
검정 통계량 및 이의 확률분포에 근거하여 귀무가설이 참일 때 귀무가설을 기각하게 되는 제1종 오류를 범할 확률은 값(p-Value)이다.