빅데이터분석기사 필기 오답노트 - 3과목(빅데이터 모델링)

DMIS·2022년 7월 3일

빅데이터분석기사

목록 보기

3/4

최종모의고사 1회

문제1

다음 중 의사결정나무의 구성요소를 설명한 것으로 옳지 않은 것은 무엇인가?
① 뿌리 마디는 시작되는 마디로 전체 자료를 포함한다.
② 가지는 뿌리 마디로부터 끝마디까지 연결된 상태의 마디들이다.
③ 깊이는 뿌리 마디부터 끝마디까지의 부모 마디들의 수이다.
④ 자식 마디는 하나의 마디로부터 분리되어 나간 2개 이상의 마디들이다.

정답 ③
해설
깊이는 뿌리 마디부터 끝마디까지의 중간 마디들의 수이다.

문제2

다음 중 초매개변수는 무엇인가?
① 인공신경망에서의 가중치
② KNN에서의 K의 개수
③ 서포트 벡터 머신에서의 서포트 벡터
④ 로지스틱 회귀 분석에서의 결정계수

정답 ②
해설

초매개변수 : 인간이 직접 설정하는 값

모델에서 외적인 요소로 데이터 분석을 통해 얻어지는 값이 아니라 사용자가 직접 설정해주는 값

매개변수 : 분석 과정에서 설정되는 값

문제3

다음 앙상블 기법 중 훈련 데이터에서 다수의 부트스트랩 자료를 생성하고, 각 자료를 모델링한 후 결합하여 최종 예측 모형을 만드는 것은 무엇인가?
① 배깅
② 부스팅
③ 랜덤 포래스트
④ 스태킹

정답 ①
해설

부트스트랩은 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료를 의미한다.

훈련 데이터에서 다수의 부트스트랩 자료를 생성하고, 각 자료를 모델링한 후 결합하여 최종 예측 모형을 만드는 알고리즘은 배깅이다.

배깅과 부스팅 설명

최종모의고사 2회

문제1

다음 중 의사결정나무의 알고리즘에 대한 설명으로 가장 옳지 않은 것은?
① CART는 목적변수가 이산형일 경우에 불순도의 측도로 엔트로피 지수를 이용한다.
② C4.5와 C5.0은 각 마디에서 다지 분리가 가능하다.
③ CHAID에서는 불순도의 측도로 카이제곱 통계량을 이용한다.
④ QUEST에서 분리규칙은 분리변수 선택과 분리점 선택의 두 단계로 나누어 시행한다.

정답 ①
해설

CART는 목적변수가 이산형일 경우에 불순도의 측도로 지니지수를 이용한다.

문제2

다음 중 매개변수의 예시로 가장 알맞지 않은 것은?
① 신경망 학습에서 학습률
② 인공신경망에서의 가중치
③ 서포트 벡터 머신에서의 서포트 벡터
④ 선형 회귀나 로지스틱 회귀 분석에서의 결정계수

정답 ①
해설

매개변수는 모델 내부에서 확인이 가능한 변수로 데이터를 통해서 산출되는 값이다.

매개변수의 예시는 다음과 같다.

인공신경망에서의 가중치

서포트 벡터 머신에서의 서포트 벡터

선형 회귀나 로지스틱 회귀 분석에서의 결정계수

신경망 학습에서 학습률은 초매개변수의 예시이다.

문제3

다음이 설명하는 의사결정나무 분석 과정 단계는 무엇인가?

분석 목적과 자료구조에 따라 적절한 분리 규칙 및 정지 규칙을 지정함
① 의사결정나무 성장
② 가지치기
③ 해석 및 예측
④ 타당성 평가

정답 ①
해설
의사결정나무 분석 과정 단계는 다음과 같다.

단계 내용
의사결정나무 성장 분석의 목적과 자료구조에 따라서 적절한 분리 규칙을 찾아서 나무를 성장시키는 과정
가지치기 분류 오류를 크게 할 위험이 높거나 부적절한 추론규칙을 가지고 있는 가지 또는 불필요한 가지를 제거하는 단계
타당성 평가 이익 도표, 위험 도표 또는 평가 데이터를 이용하여 교차 타당성 등을 이용한 평가 수행 단계
해석 및 예측 구축된 의사결정나무 모형을 해석하고, 분류 및 예측 무형을 설정하여 데이터의 분류 및 예측에 활용하는 단계

단계	내용
의사결정나무 성장	분석의 목적과 자료구조에 따라서 적절한 분리 규칙을 찾아서 나무를 성장시키는 과정
가지치기	분류 오류를 크게 할 위험이 높거나 부적절한 추론규칙을 가지고 있는 가지 또는 불필요한 가지를 제거하는 단계
타당성 평가	이익 도표, 위험 도표 또는 평가 데이터를 이용하여 교차 타당성 등을 이용한 평가 수행 단계
해석 및 예측	구축된 의사결정나무 모형을 해석하고, 분류 및 예측 무형을 설정하여 데이터의 분류 및 예측에 활용하는 단계

최종모의고사 3회

문제1

다음 중 지도 학습에 대한 설명으로 가장 올바르지 않은 것은?
① 지도 학습은 정답인 레이블이 포함되어 있는 훈련 데이터를 통해 컴퓨터를 학습시키는 방법으로 설명변수와 목적변수 간의 관계성을 표현해내거나 미래 관측을 예측해내는 것에 많이 활용된다.
② 지도 학습 유형에는 로지스틱 회귀, 인공신경망분석(ANN), 의사결정나무, 서포트 벡터 머신(SVM), Q-Learning 등이 있다.
③ 지도 학습은 분석하고자 하는 목적변수(혹은 반응변수, 종속변수)의 형태가 수치형(양적 변수)인가 범주형(질적 변수)인가에 따라 분류와 수치 예측 방법으로 다시 나눌 수 있다.
④ 지도 학습 유형 중 서포트 벡터 머신(SVM)은 주어진 훈련 데이터를 회귀 분석을 이용해서 2개의 그룹으로 분류하는 지도 학습 모델이다.

정답 ②
해설
지도 학습 유형에는 로지스틱 회귀, 인공신경망분석(ANN), 의사결정나무, 서포트 벡터 머신(SVM), 랜덤 포레스트 등이 있다.

Q-learning은 강화 학습의 유형이다.

문제2

다음 중 군집 분석(Cluster Analysis)에 대한 설명으로 가장 옳지 않은 것은?
① 관측된 여러 개의 변숫값들로부터 유사성에만 기초하여 n개의 군집으로 집단화하고, 형성된 집단의 특성으로부터 관계를 분석하는 다변량 분석 기법이다.
② 군집 간의 거리측정 방법으로는 최단연결법, 최장연결법, 중심연결법 등이 있다.
③ 군집 간의 거리 계산을 위해 다익스트라(Dijkstra) 알고리즘을 활용한다.
④ 순위상관계수(Rank Correlation Coefficient)를 이용하여 거리를 측정한다.

정답 ③
해설
군집 간의 거리 측정을 위해 유킬리드 거리, 맨하튼 거리, 민코프스키 거리, 표준화 거리, 마할라노비스 거리 등을 활용한다.

문제3

다음 중 주성분 분석(PCA)에 대한 설명으로 옳은 것은?
① 상관관계가 있는 저차원 자료를 자료의 변동을 최대한 보존하는 고차원 자료로 변환하는 차원축소 방법이다.
② 차원축소는 고윳값이 낮은 순으로 정렬해서 낮은 고윳값을 가진 고유벡터만으로 데이터를 복원한다.
③ 분석을 통해 나타나는 주성분으로 변수들 사이의 구조를 이해하기는 매우 쉽다.
④ 주성분 분석은 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법이다.

정답 ④
해설

주성분 분석은 상관관계가 있는 고차원 자료를 변동을 최대한 보존하는 저차원 자료로 변환하는 자원축소 방법이다.

차원축소는 고윳값이 높은 순으로 정렬해서 높은 고윳값을 가진 고유벡터만으로 데이터를 복원한다.

분석을 통해 나타나는 주성분으로 변수들 사이의 구조를 쉽게 이해하기는 어렵다.

문제4

다음 중 의사결정나무에 대한 설명으로 가장 올바르지 않은 것은?
① 의사결정나무는 주어진 입력값에 대하여 출력값을 예측하는 모형으로 예측나무 모형과 군집나무 모형이 있다.
② 의사결정나무 알고리즘 중 CART는 가장 성취도가 좋은 변수 및 수준을 찾는 것에 중점을 둔 알고리즘으로 개별 입력변수뿐만 아니라 입력변수들의 선형 결합 중에서 최적의 분리를 구할 수 있다.
③ 의사결정나무의 분석 과정은 의사결정나무 성장, 가지치기, 타당성 평가, 해석 및 예측 순으로 되어 있다.
④ 의사결정나무는 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 예측 모델이다.

정답 ①
해설
의사결정나무는 주어진 입력값에 대하여 출력값을 예측하는 모형으로 분류나무 모형과 회귀나무 모형이 있다.

문제5

다음 중 군집 분석(Cluster Analysis)에 대한 설명으로 가장 올바르지 않은 것은?
① 군집 분석 중 계층적 군집을 형성하는 방법에는 병합적 방법과 분할적 방법이 있고, 분할적 방법은 큰 군집으로부터 출발하여 군집을 분리해 나가는 방법으로 R의 {cluster} 패키지의 diana(), mona() 함수가 있다.
② 군집 간의 연결법에는 최단연결법, 최장연결법, 평균연결법, 중심연결법, 와드연결법이 있다.
③ 군집 간의 거리 계산에 사용되는 연속형 변수 거리로는 유클리드 거리, 맨하튼 거리, 민코프스키 거리, 표준화 거리, 자카드 계수 등이 있다.
④ 군집 분석 종류 중 혼합 분포 군집은 데이터가 K개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 모수와 함께 가중치를 자료로부터 추정하는 방법이다.

정답 ③
해설

군집 간의 거리 계산에 사용되는 연속형 변수 거리로는 유클리드 거리, 맨하튼 거리, 민코프스키 거리, 표준화 거리, 마할라노비스 거리 등이 있다.

군집 간의 거리 계산에 사용되는 명목형 변수 거리로는 단순 일치 계수, 자카드 계수 등이 있다.

문제6

다음 중 교차 분석(카이제곱 검정)에 대한 설명으로 가장 올바르지 않은 것은?
① 교차 분석은 적합도 검정, 독립성 검정, 동질성 검정의 3가지로 분류할 수 있다.
② 카이제곱 검정 공식은
$s=\dfrac{\displaystyle\sum(r_i-\overline{r})(s_i-\overline{s})}{\sqrt{\displaystyle\sum(r_i-\overline{r})^2}\sqrt{\displaystyle\sum(s_i-\overline{s})^2}}\ (-1\le\theta\le1)$
이다.
③ 교차 분석에서 적합도 검정은 1개의 요인을 대상으로 표본 집단의 분포가 주어진 특정 이론을 따르고 있는 지를 검정하는 기법이다.
④ 교차 분석에서 독립성 검정은 여러 범주를 가지는 2개의 요인이 독립적인지, 서로 연관성이 있는지를 검정하는 기법이다.

정답 ②
해설

카이제곱 검정 공식은 $\chi^2=\displaystyle\sum_{i=1}^k\dfrac{(O_i-E_i)^2}{E_i}$ 이다.

$\theta=\dfrac{\displaystyle\sum(r_i-\overline{r})(s_i-\overline{s})}{\sqrt{\displaystyle\sum(r_i-\overline{r})^2}\sqrt{\displaystyle\sum(s_i-\overline{s})^2}}\ (-1\le\theta\le1)$ 는 피어슨 상관계수 공식이다.

문제7

다음 중 비모수 통계 검정 방법에 대한 설명으로 가장 올바르지 않은 것은?
① 부호 검정은 차이의 부호와 상대적인 크기를 고려한 검정 방법이다.
② 윌콕슨 순위 합 검정은 두 표본의 혼합 표본에서 순위 합을 이용한 검정 방법으로 자료의 분포가 연속적이고 독립적인 분포에서 나온 것이라는 기본 가정 외에 자료의 분포에 대한 대칭성 가정이 필요하다.
③ 대응 표본 검정은 하나의 모집단에서 두 가지 처리를 적용하여 관찰 값을 얻은 후 각 쌍의 차이를 이용하여 두 중위수의 차이를 검정하는 방법이다.
④ 크루스칼 왈리스 검정은 세 집단 이상의 분포를 비교하는 검정 방법으로 모수적 방법에서의 One-Way ANOVA와 같은 목적으로 쓰이고, 그룹별 평균이 아닌 중위수가 같은지를 검정한다.

정답 ①
해설
부호 검정은 차이의 크기는 무시하고 차이의 부호만을 이용한 중위수의 위치에 대한 검정 방법으로 자료를 중위수와 차이의 부호인 +와 -의 부호로 전환한 다음 부호들의 수를 근거로 검정하는 것이다.

DMIS

Data + Math

이전 포스트

빅데이터분석기사 필기 오답노트 - 2과목(빅데이터 탐색)

다음 포스트

빅데이터분석기사 필기 오답노트 - 3과목(빅데이터 모델링)