다음 중 의사결정나무의 구성요소를 설명한 것으로 옳지 않은 것은 무엇인가?
① 뿌리 마디는 시작되는 마디로 전체 자료를 포함한다.
② 가지는 뿌리 마디로부터 끝마디까지 연결된 상태의 마디들이다.
③ 깊이는 뿌리 마디부터 끝마디까지의 부모 마디들의 수이다.
④ 자식 마디는 하나의 마디로부터 분리되어 나간 2개 이상의 마디들이다.
정답 ③
해설
깊이는 뿌리 마디부터 끝마디까지의 중간 마디들의 수이다.
다음 중 초매개변수는 무엇인가?
① 인공신경망에서의 가중치
② KNN에서의 K의 개수
③ 서포트 벡터 머신에서의 서포트 벡터
④ 로지스틱 회귀 분석에서의 결정계수
정답 ②
해설
- 초매개변수 : 인간이 직접 설정하는 값
- 모델에서 외적인 요소로 데이터 분석을 통해 얻어지는 값이 아니라 사용자가 직접 설정해주는 값
- 매개변수 : 분석 과정에서 설정되는 값
다음 앙상블 기법 중 훈련 데이터에서 다수의 부트스트랩 자료를 생성하고, 각 자료를 모델링한 후 결합하여 최종 예측 모형을 만드는 것은 무엇인가?
① 배깅
② 부스팅
③ 랜덤 포래스트
④ 스태킹
정답 ①
해설
- 부트스트랩은 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료를 의미한다.
- 훈련 데이터에서 다수의 부트스트랩 자료를 생성하고, 각 자료를 모델링한 후 결합하여 최종 예측 모형을 만드는 알고리즘은 배깅이다.
- 배깅과 부스팅 설명
다음 중 의사결정나무의 알고리즘에 대한 설명으로 가장 옳지 않은 것은?
① CART는 목적변수가 이산형일 경우에 불순도의 측도로 엔트로피 지수를 이용한다.
② C4.5와 C5.0은 각 마디에서 다지 분리가 가능하다.
③ CHAID에서는 불순도의 측도로 카이제곱 통계량을 이용한다.
④ QUEST에서 분리규칙은 분리변수 선택과 분리점 선택의 두 단계로 나누어 시행한다.
정답 ①
해설
- CART는 목적변수가 이산형일 경우에 불순도의 측도로 지니지수를 이용한다.
다음 중 매개변수의 예시로 가장 알맞지 않은 것은?
① 신경망 학습에서 학습률
② 인공신경망에서의 가중치
③ 서포트 벡터 머신에서의 서포트 벡터
④ 선형 회귀나 로지스틱 회귀 분석에서의 결정계수
정답 ①
해설
- 매개변수는 모델 내부에서 확인이 가능한 변수로 데이터를 통해서 산출되는 값이다.
- 매개변수의 예시는 다음과 같다.
- 인공신경망에서의 가중치
- 서포트 벡터 머신에서의 서포트 벡터
- 선형 회귀나 로지스틱 회귀 분석에서의 결정계수
- 신경망 학습에서 학습률은 초매개변수의 예시이다.
다음이 설명하는 의사결정나무 분석 과정 단계는 무엇인가?
정답 ①
해설
의사결정나무 분석 과정 단계는 다음과 같다.
단계 내용 의사결정나무 성장 분석의 목적과 자료구조에 따라서 적절한 분리 규칙을 찾아서 나무를 성장시키는 과정 가지치기 분류 오류를 크게 할 위험이 높거나 부적절한 추론규칙을 가지고 있는 가지 또는 불필요한 가지를 제거하는 단계 타당성 평가 이익 도표, 위험 도표 또는 평가 데이터를 이용하여 교차 타당성 등을 이용한 평가 수행 단계 해석 및 예측 구축된 의사결정나무 모형을 해석하고, 분류 및 예측 무형을 설정하여 데이터의 분류 및 예측에 활용하는 단계
다음 중 지도 학습에 대한 설명으로 가장 올바르지 않은 것은?
① 지도 학습은 정답인 레이블이 포함되어 있는 훈련 데이터를 통해 컴퓨터를 학습시키는 방법으로 설명변수와 목적변수 간의 관계성을 표현해내거나 미래 관측을 예측해내는 것에 많이 활용된다.
② 지도 학습 유형에는 로지스틱 회귀, 인공신경망분석(ANN), 의사결정나무, 서포트 벡터 머신(SVM), Q-Learning 등이 있다.
③ 지도 학습은 분석하고자 하는 목적변수(혹은 반응변수, 종속변수)의 형태가 수치형(양적 변수)인가 범주형(질적 변수)인가에 따라 분류와 수치 예측 방법으로 다시 나눌 수 있다.
④ 지도 학습 유형 중 서포트 벡터 머신(SVM)은 주어진 훈련 데이터를 회귀 분석을 이용해서 2개의 그룹으로 분류하는 지도 학습 모델이다.
정답 ②
해설
지도 학습 유형에는 로지스틱 회귀, 인공신경망분석(ANN), 의사결정나무, 서포트 벡터 머신(SVM), 랜덤 포레스트 등이 있다.
- Q-learning은 강화 학습의 유형이다.
다음 중 군집 분석(Cluster Analysis)에 대한 설명으로 가장 옳지 않은 것은?
① 관측된 여러 개의 변숫값들로부터 유사성에만 기초하여 n개의 군집으로 집단화하고, 형성된 집단의 특성으로부터 관계를 분석하는 다변량 분석 기법이다.
② 군집 간의 거리측정 방법으로는 최단연결법, 최장연결법, 중심연결법 등이 있다.
③ 군집 간의 거리 계산을 위해 다익스트라(Dijkstra) 알고리즘을 활용한다.
④ 순위상관계수(Rank Correlation Coefficient)를 이용하여 거리를 측정한다.
정답 ③
해설
군집 간의 거리 측정을 위해 유킬리드 거리, 맨하튼 거리, 민코프스키 거리, 표준화 거리, 마할라노비스 거리 등을 활용한다.
다음 중 주성분 분석(PCA)에 대한 설명으로 옳은 것은?
① 상관관계가 있는 저차원 자료를 자료의 변동을 최대한 보존하는 고차원 자료로 변환하는 차원축소 방법이다.
② 차원축소는 고윳값이 낮은 순으로 정렬해서 낮은 고윳값을 가진 고유벡터만으로 데이터를 복원한다.
③ 분석을 통해 나타나는 주성분으로 변수들 사이의 구조를 이해하기는 매우 쉽다.
④ 주성분 분석은 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법이다.
정답 ④
해설
- 주성분 분석은 상관관계가 있는 고차원 자료를 변동을 최대한 보존하는 저차원 자료로 변환하는 자원축소 방법이다.
- 차원축소는 고윳값이 높은 순으로 정렬해서 높은 고윳값을 가진 고유벡터만으로 데이터를 복원한다.
- 분석을 통해 나타나는 주성분으로 변수들 사이의 구조를 쉽게 이해하기는 어렵다.
다음 중 의사결정나무에 대한 설명으로 가장 올바르지 않은 것은?
① 의사결정나무는 주어진 입력값에 대하여 출력값을 예측하는 모형으로 예측나무 모형과 군집나무 모형이 있다.
② 의사결정나무 알고리즘 중 CART는 가장 성취도가 좋은 변수 및 수준을 찾는 것에 중점을 둔 알고리즘으로 개별 입력변수뿐만 아니라 입력변수들의 선형 결합 중에서 최적의 분리를 구할 수 있다.
③ 의사결정나무의 분석 과정은 의사결정나무 성장, 가지치기, 타당성 평가, 해석 및 예측 순으로 되어 있다.
④ 의사결정나무는 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 예측 모델이다.
정답 ①
해설
의사결정나무는 주어진 입력값에 대하여 출력값을 예측하는 모형으로 분류나무 모형과 회귀나무 모형이 있다.
다음 중 군집 분석(Cluster Analysis)에 대한 설명으로 가장 올바르지 않은 것은?
① 군집 분석 중 계층적 군집을 형성하는 방법에는 병합적 방법과 분할적 방법이 있고, 분할적 방법은 큰 군집으로부터 출발하여 군집을 분리해 나가는 방법으로 R의 {cluster} 패키지의 diana(), mona() 함수가 있다.
② 군집 간의 연결법에는 최단연결법, 최장연결법, 평균연결법, 중심연결법, 와드연결법이 있다.
③ 군집 간의 거리 계산에 사용되는 연속형 변수 거리로는 유클리드 거리, 맨하튼 거리, 민코프스키 거리, 표준화 거리, 자카드 계수 등이 있다.
④ 군집 분석 종류 중 혼합 분포 군집은 데이터가 K개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 모수와 함께 가중치를 자료로부터 추정하는 방법이다.
정답 ③
해설
- 군집 간의 거리 계산에 사용되는 연속형 변수 거리로는 유클리드 거리, 맨하튼 거리, 민코프스키 거리, 표준화 거리, 마할라노비스 거리 등이 있다.
- 군집 간의 거리 계산에 사용되는 명목형 변수 거리로는 단순 일치 계수, 자카드 계수 등이 있다.
다음 중 교차 분석(카이제곱 검정)에 대한 설명으로 가장 올바르지 않은 것은?
① 교차 분석은 적합도 검정, 독립성 검정, 동질성 검정의 3가지로 분류할 수 있다.
② 카이제곱 검정 공식은
이다.
③ 교차 분석에서 적합도 검정은 1개의 요인을 대상으로 표본 집단의 분포가 주어진 특정 이론을 따르고 있는 지를 검정하는 기법이다.
④ 교차 분석에서 독립성 검정은 여러 범주를 가지는 2개의 요인이 독립적인지, 서로 연관성이 있는지를 검정하는 기법이다.
정답 ②
해설
- 카이제곱 검정 공식은 이다.
- 는 피어슨 상관계수 공식이다.
다음 중 비모수 통계 검정 방법에 대한 설명으로 가장 올바르지 않은 것은?
① 부호 검정은 차이의 부호와 상대적인 크기를 고려한 검정 방법이다.
② 윌콕슨 순위 합 검정은 두 표본의 혼합 표본에서 순위 합을 이용한 검정 방법으로 자료의 분포가 연속적이고 독립적인 분포에서 나온 것이라는 기본 가정 외에 자료의 분포에 대한 대칭성 가정이 필요하다.
③ 대응 표본 검정은 하나의 모집단에서 두 가지 처리를 적용하여 관찰 값을 얻은 후 각 쌍의 차이를 이용하여 두 중위수의 차이를 검정하는 방법이다.
④ 크루스칼 왈리스 검정은 세 집단 이상의 분포를 비교하는 검정 방법으로 모수적 방법에서의 One-Way ANOVA와 같은 목적으로 쓰이고, 그룹별 평균이 아닌 중위수가 같은지를 검정한다.
정답 ①
해설
부호 검정은 차이의 크기는 무시하고 차이의 부호만을 이용한 중위수의 위치에 대한 검정 방법으로 자료를 중위수와 차이의 부호인 +와 -의 부호로 전환한 다음 부호들의 수를 근거로 검정하는 것이다.