데이터는 현실 세계에서 관찰이나 측정을 통해 수집된 사실이나 값을 의미합니다. 데이터는 가공되지 않은 상태의 순수한 숫자나 기호를 말합니다.
정보는 데이터를 의미 있는 형태로 가공하여 유용한 상태로 만든 것을 말합니다. 정보는 의사결정에 직접적으로 활용될 수 있는 형태입니다.
빅데이터는 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합을 의미합니다.
데이터베이스는 체계적으로 구조화되어 저장된 데이터의 집합을 의미합니다.
DBMS는 데이터베이스를 관리하고 운영하는 소프트웨어 시스템입니다.
데이터 웨어하우스는 기업의 의사결정을 지원하기 위해 데이터를 체계적으로 통합하여 저장한 데이터베이스입니다.
데이터 마트는 데이터 웨어하우스의 부분집합으로, 특정 부서나 업무를 위한 소규모 데이터 웨어하우스입니다.
데이터 거버넌스는 조직 내 데이터의 가용성, 유용성, 무결성, 보안성을 관리하기 위한 정책, 절차, 표준을 수립하고 실행하는 체계입니다.
빅데이터의 3V 중 'Volume'이 의미하는 바는 무엇인가?
a) 데이터의 다양성
b) 데이터의 속도
c) 데이터의 양
d) 데이터의 가치
정답: c) 데이터의 양
다음 중 CRISP-DM 방법론의 단계가 아닌 것은?
a) 비즈니스 이해
b) 데이터 이해
c) 데이터 시각화
d) 모델링
정답: c) 데이터 시각화
데이터 웨어하우스의 특징이 아닌 것은?
a) 주제 지향적
b) 통합된 데이터
c) 휘발성
d) 시계열적 데이터
정답: c) 휘발성
다음 중 비지도 학습 방법은?
a) 로지스틱 회귀
b) K-평균 군집화
c) 서포트 벡터 머신
d) 의사결정나무
정답: b) K-평균 군집화
텍스트 마이닝에서 문서의 주제를 추출하는 기법은?
a) 감성 분석
b) 개체명 인식
c) 토픽 모델링
d) 형태소 분석
정답: c) 토픽 모델링
소셜 네트워크 분석에서 노드 간 최단 경로의 수에 기반한 중심성 지표는?
a) 연결 중심성
b) 근접 중심성
c) 매개 중심성
d) 아이겐벡터 중심성
정답: c) 매개 중심성
시계열 데이터의 구성요소가 아닌 것은?
a) 추세
b) 계절성
c) 주기성
d) 선형성
정답: d) 선형성
다음 중 데이터 마이닝의 분류(Classification) 기법이 아닌 것은?
a) 의사결정나무
b) 로지스틱 회귀
c) K-평균 군집화
d) 나이브 베이즈
정답: c) K-평균 군집화
데이터 거버넌스의 주요 영역에 해당하지 않는 것은?
a) 데이터 아키텍처 관리
b) 데이터 품질 관리
c) 메타데이터 관리
d) 데이터 마케팅 관리
정답: d) 데이터 마케팅 관리
다음 중 딥러닝 모델이 아닌 것은?
a) CNN
b) RNN
c) LSTM
d) SVM
정답: d) SVM
데이터의 분산을 최대화하는 방향으로 차원을 축소하는 기법은?
a) LDA
b) PCA
c) SVD
d) t-SNE
정답: b) PCA
다음 중 연관규칙 분석의 평가 지표가 아닌 것은?
a) 지지도
b) 신뢰도
c) 향상도
d) 정확도
정답: d) 정확도
시계열 분석에서 사용되는 ARIMA 모델에서 'I'가 의미하는 것은?
a) Integrated
b) Independent
c) Iterative
d) Inverse
정답: a) Integrated
다음 중 데이터 전처리 과정에 해당하지 않는 것은?
a) 결측치 처리
b) 이상치 처리
c) 정규화
d) 회귀분석
정답: d) 회귀분석
머신러닝 모델의 과적합(Overfitting)을 방지하기 위한 방법이 아닌 것은?
a) 규제화 (Regularization)
b) 교차 검증 (Cross-validation)
c) 드롭아웃 (Dropout)
d) 데이터 증강 (Data augmentation)
정답: d) 데이터 증강 (Data augmentation)
다음 중 비정형 데이터에 해당하는 것은?
a) 고객의 나이
b) 제품의 가격
c) 고객 리뷰 텍스트
d) 거래 날짜
정답: c) 고객 리뷰 텍스트
데이터 분석 프로젝트에서 '스코프 크리프(Scope Creep)'란 무엇인가?
a) 프로젝트 범위가 불명확하게 확장되는 현상
b) 데이터의 품질이 저하되는 현상
c) 분석 모델의 성능이 떨어지는 현상
d) 프로젝트 일정이 지연되는 현상
정답: a) 프로젝트 범위가 불명확하게 확장되는 현상
다음 중 데이터 품질의 차원이 아닌 것은?
a) 정확성
b) 완전성
c) 일관성
d) 복잡성
정답: d) 복잡성
머신러닝에서 '앙상블(Ensemble)' 기법이란?
a) 여러 개의 약한 학습기를 결합하여 강한 학습기를 만드는 방법
b) 데이터를 여러 부분집합으로 나누어 분석하는 방법
c) 하나의 모델을 반복적으로 학습시키는 방법
d) 데이터의 차원을 축소하는 방법
정답: a) 여러 개의 약한 학습기를 결합하여 강한 학습기를 만드는 방법
다음 중 데이터 분석가의 역량으로 가장 적절하지 않은 것은?
a) 통계적 사고능력
b) 프로그래밍 능력
c) 비즈니스 이해능력
d) 마케팅 실행능력
정답: d) 마케팅 실행능력
다음 중 데이터 마이닝의 군집화(Clustering) 알고리즘이 아닌 것은?
a) K-means
b) DBSCAN
c) 계층적 군집화
d) 로지스틱 회귀
정답: d) 로지스틱 회귀
빅데이터 분석에서 'Hadoop'의 주요 구성요소가 아닌 것은?
a) HDFS
b) MapReduce
c) YARN
d) SQL
정답: d) SQL
다음 중 데이터 시각화 도구가 아닌 것은?
a) Tableau
b) Power BI
c) MongoDB
d) Qlik
정답: c) MongoDB
텍스트 마이닝에서 '불용어(Stop words)'란?
a) 분석에 중요한 의미를 갖는 단어
b) 분석에서 제외되는 의미 없는 단어
c) 문장의 주제를 나타내는 단어
d) 문장의 감성을 나타내는 단어
정답: b) 분석에서 제외되는 의미 없는 단어
다음 중 시계열 데이터 분석 기법이 아닌 것은?
a) 이동평균법
b) 지수평활법
c) ARIMA
d) K-Nearest Neighbors
정답: d) K-Nearest Neighbors
데이터 분석에서 '차원의 저주(Curse of Dimensionality)'란?
a) 데이터의 차원이 증가할수록 분석의 정확도가 높아지는 현상
b) 데이터의 차원이 증가할수록 필요한 샘플의 수가 기하급수적으로 증가하는 현상
c) 데이터의 차원이 감소할수록 정보의 손실이 커지는 현상
d) 데이터의 차원이 변경될 때마다 모델을 재학습해야 하는 현상
정답: b) 데이터의 차원이 증가할수록 필요한 샘플의 수가 기하급수적으로 증가하는 현상
다음 중 비즈니스 인텔리전스(BI)의 구성요소가 아닌 것은?
a) 데이터 웨어하우스
b) OLAP
c) 데이터 마이닝
d) 트랜잭션 처리
정답: d) 트랜잭션 처리
데이터 분석에서 '교차 검증(Cross-validation)'의 목적은?
a) 모델의 과적합을 방지하기 위해
b) 데이터의 품질을 향상시키기 위해
c) 분석 속도를 높이기 위해
d) 데이터의 차원을 축소하기 위해
정답: a) 모델의 과적합을 방지하기 위해
다음 중 데이터 마이닝의 '연관규칙(Association Rule)' 분석에서 사용되는 알고리즘은?
a) K-means
b) Apriori
c) SVM
d) Naive Bayes
정답: b) Apriori
데이터 분석에서 'ETL'은 무엇의 약자인가?
a) Extract, Transform, Load
b) Evaluate, Test, Learn
c) Explore, Train, Label
d) Estimate, Track, Locate
정답: a) Extract, Transform, Load
다음 중 기계학습 모델의 성능 평가 지표가 아닌 것은?
a) 정확도 (Accuracy)
b) 재현율 (Recall)
c) F1 점수
d) 표준편차 (Standard Deviation)
정답: d) 표준편차 (Standard Deviation)
데이터 마이닝에서 '오버샘플링(Oversampling)'과 '언더샘플링(Undersampling)'은 어떤 문제를 해결하기 위한 기법인가?
a) 데이터의 차원 축소
b) 클래스 불균형
c) 과적합
d) 결측치 처리
정답: b) 클래스 불균형
다음 중 비정형 데이터 분석 기법이 아닌 것은?
a) 텍스트 마이닝
b) 음성 인식
c) 이미지 처리
d) 선형 회귀
정답: d) 선형 회귀
데이터 분석에서 '특이값(Outlier)'을 처리하는 방법으로 적절하지 않은 것은?
a) 제거
b) 대체
c) 변환
d) 증폭
정답: d) 증폭
다음 중 데이터 분석 프로젝트의 위험 요인이 아닌 것은?
a) 데이터 품질 문제
b) 기술적 한계
c) 자원 부족
d) 분석 결과의 정확성
정답: d) 분석 결과의 정확성
데이터 마이닝에서 '가지치기(Pruning)'의 목적은?
a) 데이터의 양을 줄이기 위해
b) 모델의 복잡도를 줄이고 과적합을 방지하기 위해
c) 분석 속도를 높이기 위해
d) 데이터의 품질을 향상시키기 위해
정답: b) 모델의 복잡도를 줄이고 과적합을 방지하기 위해
다음 중 데이터 분석의 CRISP-DM 방법론에서 가장 마지막 단계는?
a) 평가
b) 전개
c) 모델링
d) 데이터 준비
정답: b) 전개
텍스트 마이닝에서 '어간 추출(Stemming)'과 '표제어 추출(Lemmatization)'의 주요 목적은?
a) 문장의 구조를 분석하기 위해
b) 단어의 기본형을 찾아 단어의 변형을 통일하기 위해
c) 문장의 감성을 분석하기 위해
d) 문장에서 중요한 키워드를 추출하기 위해
정답: b) 단어의 기본형을 찾아 단어의 변형을 통일하기 위해
데이터 분석에서 '앙상블 학습(Ensemble Learning)'의 대표적인 알고리즘이 아닌 것은?
a) 랜덤 포레스트 (Random Forest)
b) 그래디언트 부스팅 (Gradient Boosting)
c) 배깅 (Bagging)
d) K-평균 군집화 (K-means Clustering)
정답: d) K-평균 군집화 (K-means Clustering)
다음 중 데이터 분석 결과의 시각화 방법으로 가장 적절하지 않은 것은?
a) 막대 그래프
b) 산점도
c) 히트맵
d) 결정 트리
정답: d) 결정 트리
데이터 분석에서 '교차 검증(Cross-validation)'의 주요 목적은?
a) 데이터의 품질 향상
b) 모델의 일반화 성능 평가
c) 데이터의 차원 축소
d) 분석 속도 개선
정답: b) 모델의 일반화 성능 평가
다음 중 비지도 학습(Unsupervised Learning) 알고리즘이 아닌 것은?
a) K-means 군집화
b) 주성분 분석(PCA)
c) 로지스틱 회귀
d) DBSCAN
정답: c) 로지스틱 회귀
데이터 분석에서 'ROC 곡선'이 나타내는 것은?
a) 모델의 학습 속도
b) 데이터의 분포
c) 모델의 분류 성능
d) 변수 간의 상관관계
정답: c) 모델의 분류 성능
다음 중 시계열 데이터 분석에 사용되는 기법이 아닌 것은?
a) 자기회귀(AR) 모델
b) 이동평균(MA) 모델
c) ARIMA 모델
d) K-최근접 이웃(K-NN) 알고리즘
정답: d) K-최근접 이웃(K-NN) 알고리즘
데이터 마이닝에서 '과적합(Overfitting)'이란?
a) 모델이 훈련 데이터에 지나치게 맞춰져 새로운 데이터에 대한 일반화 성능이 떨어지는 현상
b) 모델이 훈련 데이터의 특성을 제대로 학습하지 못한 현상
c) 데이터의 양이 너무 많아 모델의 학습이 불가능한 현상
d) 모델의 복잡도가 너무 낮아 데이터의 특성을 표현하지 못하는 현상
정답: a) 모델이 훈련 데이터에 지나치게 맞춰져 새로운 데이터에 대한 일반화 성능이 떨어지는 현상
다음 중 텍스트 마이닝에서 사용되는 기법이 아닌 것은?
a) 감성 분석
b) 토픽 모델링
c) 개체명 인식
d) 주성분 분석(PCA)
정답: d) 주성분 분석(PCA)
데이터 분석에서 '특징 선택(Feature Selection)'의 주요 목적은?
a) 데이터의 양을 증가시키기 위해
b) 모델의 복잡도를 높이기 위해
c) 중요한 변수만을 선택하여 모델의 성능을 향상시키기 위해
d) 데이터의 분포를 변경하기 위해
정답: c) 중요한 변수만을 선택하여 모델의 성능을 향상시키기 위해
다음 중 데이터 전처리 과정에 해당하지 않는 것은?
a) 결측치 처리
b) 이상치 제거
c) 정규화
d) 모델 평가
정답: d) 모델 평가
데이터 마이닝에서 '연관 규칙(Association Rule)'의 주요 응용 분야는?
a) 이미지 분류
b) 장바구니 분석
c) 음성 인식
d) 시계열 예측
정답: b) 장바구니 분석
다음 중 딥러닝(Deep Learning)의 특징이 아닌 것은?
a) 다층 신경망 구조
b) 대량의 데이터 필요
c) 특징 추출의 자동화
d) 적은 계산 리소스로 빠른 학습
정답: d) 적은 계산 리소스로 빠른 학습
데이터 분석에서 '차원의 저주(Curse of Dimensionality)'란?
a) 데이터의 차원이 증가할수록 필요한 샘플의 수가 기하급수적으로 증가하는 현상
b) 데이터의 차원이 감소할수록 정보의 손실이 증가하는 현상
c) 데이터의 차원이 증가할수록 분석 속도가 빨라지는 현상
d) 데이터의 차원이 감소할수록 모델의 복잡도가 증가하는 현상
정답: a) 데이터의 차원이 증가할수록 필요한 샘플의 수가 기하급수적으로 증가하는 현상
다음 중 앙상블 학습(Ensemble Learning) 방법이 아닌 것은?
a) 배깅(Bagging)
b) 부스팅(Boosting)
c) 스태킹(Stacking)
d) 클러스터링(Clustering)
정답: d) 클러스터링(Clustering)
데이터 분석에서 'A/B 테스트'의 주요 목적은?
a) 데이터의 품질 향상
b) 두 가지 버전 중 더 나은 성능을 보이는 것을 선택
c) 모델의 과적합 방지
d) 데이터의 차원 축소
정답: b) 두 가지 버전 중 더 나은 성능을 보이는 것을 선택
다음 중 비정형 데이터에 해당하지 않는 것은?
a) 텍스트 문서
b) 이미지 파일
c) 음성 녹음
d) 스프레드시트
정답: d) 스프레드시트
데이터 분석에서 '혼동 행렬(Confusion Matrix)'이 제공하는 정보가 아닌 것은?
a) 참 양성(True Positive)
b) 거짓 음성(False Negative)
c) 정밀도(Precision)
d) 평균 제곱 오차(Mean Squared Error)
정답: d) 평균 제곱 오차(Mean Squared Error)
다음 중 데이터 분석 프로젝트의 성공 요인이 아닌 것은?
a) 명확한 비즈니스 목표 설정
b) 고품질의 데이터 확보
c) 적절한 분석 기법의 선택
d) 최신 하드웨어의 사용
정답: d) 최신 하드웨어의 사용
데이터 마이닝에서 '부트스트래핑(Bootstrapping)'의 주요 목적은?
a) 데이터의 양을 증가시키기 위해
b) 모델의 신뢰성을 평가하기 위해
c) 데이터의 차원을 축소하기 위해
d) 모델의 학습 속도를 높이기 위해
정답: b) 모델의 신뢰성을 평가하기 위해
다음 중 데이터 분석에서 '정규화(Normalization)'의 목적이 아닌 것은?
a) 변수의 스케일을 통일
b) 모델의 수렴 속도 향상
c) 특정 변수의 영향력 증대
d) 변수 간 비교 가능성 증대
정답: c) 특정 변수의 영향력 증대
데이터 분석에서 '시각화(Visualization)'의 주요 목적이 아닌 것은?
a) 데이터의 패턴 발견
b) 복잡한 정보의 간단한 전달
c) 이상치 탐지
d) 데이터의 품질 향상
정답: d) 데이터의 품질 향상
다음 중 데이터 마이닝의 '분류(Classification)' 알고리즘이 아닌 것은?
a) 로지스틱 회귀
b) 의사결정 트리
c) K-평균 군집화
d) 서포트 벡터 머신
정답: c) K-평균 군집화
데이터 분석에서 '과소적합(Underfitting)'이란?
a) 모델이 훈련 데이터의 패턴을 제대로 학습하지 못한 상태
b) 모델이 훈련 데이터에 지나치게 맞춰진 상태
c) 데이터의 양이 너무 많아 모델 학습이 불가능한 상태
d) 모델의 복잡도가 너무 높아 일반화가 어려운 상태
정답: a) 모델이 훈련 데이터의 패턴을 제대로 학습하지 못한 상태
다음 중 '비지도 학습(Unsupervised Learning)'의 예가 아닌 것은?
a) K-평균 군집화
b) 주성분 분석(PCA)
c) 랜덤 포레스트
d) 자기조직화 지도(SOM)
정답: c) 랜덤 포레스트
데이터 분석에서 'SQL'의 주요 용도는?
a) 이미지 처리
b) 자연어 처리
c) 데이터베이스 쿼리
d) 딥러닝 모델 구축
정답: c) 데이터베이스 쿼리
다음 중 데이터 마이닝의 '연관 규칙(Association Rule)' 분석에서 사용되는 지표가 아닌 것은?
a) 지지도(Support)
b) 신뢰도(Confidence)
c) 향상도(Lift)
d) 정확도(Accuracy)
정답: d) 정확도(Accuracy)
데이터 분석에서 '특이값(Outlier)' 처리 방법으로 적절하지 않은 것은?
a) 제거
b) 대체
c) 변환
d) 증폭
정답: d) 증폭
다음 중 시계열 데이터 분석 기법이 아닌 것은?
a) ARIMA
b) 지수평활법
c) K-최근접 이웃(K-NN)
d) 홀트-윈터스(Holt-Winters) 방법
정답: c) K-최근접 이웃(K-NN)
데이터 마이닝에서 '가지치기(Pruning)'의 주요 목적은?
a) 데이터의 양을 증가시키기 위해
b) 모델의 과적합을 방지하기 위해
c) 데이터의 차원을 증가시키기 위해
d) 모델의 학습 속도를 높이기 위해
정답: b) 모델의 과적합을 방지하기 위해
다음 중 텍스트 마이닝 과정에 포함되지 않는 것은?
a) 토큰화(Tokenization)
b) 불용어 제거(Stop words removal)
c) 어간 추출(Stemming)
d) 주성분 분석(PCA)
정답: d) 주성분 분석(PCA)
데이터 분석에서 '교차 검증(Cross-validation)'의 주요 목적은?
a) 데이터의 품질 향상
b) 모델의 일반화 성능 평가
c) 데이터의 차원 축소
d) 특이값 탐지
정답: b) 모델의 일반화 성능 평가
다음 중 딥러닝(Deep Learning) 모델이 아닌 것은?
a) CNN (Convolutional Neural Network)
b) RNN (Recurrent Neural Network)
c) GAN (Generative Adversarial Network)
d) SVM (Support Vector Machine)
정답: d) SVM (Support Vector Machine)
데이터 분석에서 '차원 축소(Dimensionality Reduction)'의 주요 목적이 아닌 것은?
a) 데이터 시각화 용이성 증대
b) 모델의 복잡도 감소
c) 과적합 위험 감소
d) 데이터의 양 증가
정답: d) 데이터의 양 증가
다음 중 분류(Classification) 모델의 성능 평가 지표가 아닌 것은?
a) 정밀도(Precision)
b) 재현율(Recall)
c) F1 점수
d) R-제곱(R-squared)
정답: d) R-제곱(R-squared)
데이터 마이닝에서 '서포트 벡터 머신(SVM)'의 주요 목적은?
a) 데이터 군집화
b) 이상치 탐지
c) 분류 및 회귀
d) 차원 축소
정답: c) 분류 및 회귀
다음 중 비지도 학습(Unsupervised Learning) 알고리즘이 아닌 것은?
a) K-평균 군집화
b) DBSCAN
c) 계층적 군집화
d) 나이브 베이즈
정답: d) 나이브 베이즈
데이터 분석에서 '앙상블 학습(Ensemble Learning)'의 주요 목적은?
a) 데이터의 양을 증가시키기 위해
b) 여러 모델을 결합하여 성능을 향상시키기 위해
c) 데이터의 차원을 축소하기 위해
d) 모델의 학습 속도를 높이기 위해
정답: b) 여러 모델을 결합하여 성능을 향상시키기 위해
다음 중 데이터 전처리 과정에 해당하지 않는 것은?
a) 결측치 처리
b) 이상치 제거
c) 특징 선택
d) 모델 평가
정답: d) 모델 평가
데이터 분석에서 'ROC 곡선'이 나타내는 것은?
a) 모델의 학습 속도
b) 데이터의 분포
c) 모델의 분류 성능
d) 변수 간의 상관관계
정답: c) 모델의 분류 성능
다음 중 시계열 데이터 분석에 사용되는 기법이 아닌 것은?
a) 자기회귀(AR) 모델
b) 이동평균(MA) 모델
c) ARIMA 모델
d) 로지스틱 회귀
정답: d) 로지스틱 회귀
데이터 마이닝에서 '과적합(Overfitting)'을 방지하는 방법이 아닌 것은?
a) 정규화(Regularization)
b) 교차 검증(Cross-validation)
c) 데이터 증강(Data augmentation)
d) 데이터 삭제(Data deletion)
정답: d) 데이터 삭제(Data deletion)
다음 중 텍스트 마이닝에서 사용되는 기법이 아닌 것은?
a) 감성 분석
b) 토픽 모델링
c) 개체명 인식
d) K-평균 군집화
정답: d) K-평균 군집화
데이터 분석에서 '특징 공학(Feature Engineering)'의 주요 목적은?
a) 데이터의 양을 줄이기 위해
b) 모델의 성능을 향상시키기 위해
c) 데이터의 보안을 강화하기 위해
d) 분석 속도를 높이기 위해
정답: b) 모델의 성능을 향상시키기 위해
다음 중 데이터 정규화(Normalization) 방법이 아닌 것은?
a) Min-Max 정규화
b) Z-점수 정규화
c) 로그 변환
d) 주성분 분석(PCA)
정답: d) 주성분 분석(PCA)
데이터 마이닝에서 '부스팅(Boosting)' 기법의 특징은?
a) 여러 모델을 병렬로 학습시킨다
b) 이전 모델의 오류에 가중치를 두어 순차적으로 학습한다
c) 데이터를 무작위로 추출하여 여러 모델을 만든다
d) 하나의 강력한 모델만을 사용한다
정답: b) 이전 모델의 오류에 가중치를 두어 순차적으로 학습한다
다음 중 비정형 데이터 분석 기법이 아닌 것은?
a) 자연어 처리
b) 이미지 인식
c) 음성 인식
d) 선형 회귀
정답: d) 선형 회귀
데이터 분석에서 'ETL'은 무엇의 약자인가?
a) Extract, Transform, Load
b) Evaluate, Test, Learn
c) Explore, Train, Label
d) Estimate, Track, Locate
정답: a) Extract, Transform, Load
다음 중 데이터 분석 프로젝트의 성공 요인이 아닌 것은?
a) 명확한 비즈니스 목표 설정
b) 데이터의 품질 관리
c) 적절한 분석 기법의 선택
d) 가장 최신의 기술만 사용
정답: d) 가장 최신의 기술만 사용
데이터 마이닝에서 '교차 검증(Cross-validation)'의 주요 목적은?
a) 데이터의 품질 향상
b) 모델의 일반화 성능 평가
c) 데이터의 차원 축소
d) 특이값 탐지
정답: b) 모델의 일반화 성능 평가
다음 중 시계열 데이터 분석 기법이 아닌 것은?
a) ARIMA
b) 지수 평활법
c) 홀트-윈터스 방법
d) K-최근접 이웃(K-NN)
정답: d) K-최근접 이웃(K-NN)
데이터 분석에서 '혼동 행렬(Confusion Matrix)'이 제공하는 정보가 아닌 것은?
a) 참 양성(True Positive)
b) 거짓 음성(False Negative)
c) 정밀도(Precision)
d) 평균 제곱 오차(Mean Squared Error)
정답: d) 평균 제곱 오차(Mean Squared Error)
다음 중 데이터 마이닝의 '분류(Classification)' 알고리즘이 아닌 것은?
a) 로지스틱 회귀
b) 의사결정 트리
c) K-평균 군집화
d) 서포트 벡터 머신
정답: c) K-평균 군집화
데이터 분석에서 '차원의 저주(Curse of Dimensionality)'란?
a) 데이터의 차원이 증가할수록 필요한 샘플의 수가 기하급수적으로 증가하는 현상
b) 데이터의 차원이 감소할수록 정보의 손실이 증가하는 현상
c) 데이터의 차원이 증가할수록 분석 속도가 빨라지는 현상
d) 데이터의 차원이 감소할수록 모델의 복잡도가 증가하는 현상
정답: a) 데이터의 차원이 증가할수록 필요한 샘플의 수가 기하급수적으로 증가하는 현상
다음 중 앙상블 학습(Ensemble Learning) 방법이 아닌 것은?
a) 배깅(Bagging)
b) 부스팅(Boosting)
c) 스태킹(Stacking)
d) 주성분 분석(PCA)
정답: d) 주성분 분석(PCA)
데이터 분석에서 'A/B 테스트'의 주요 목적은?
a) 데이터의 품질 향상
b) 두 가지 버전 중 더 나은 성능을 보이는 것을 선택
c) 모델의 과적합 방지
d) 데이터의 차원 축소
정답: b) 두 가지 버전 중 더 나은 성능을 보이는 것을 선택
다음 중 비정형 데이터에 해당하지 않는 것은?
a) 텍스트 문서
b) 이미지 파일
c) 음성 녹음
d) CSV 파일
정답: d) CSV 파일
데이터 마이닝에서 '부트스트래핑(Bootstrapping)'의 주요 목적은?
a) 데이터의 양을 증가시키기 위해
b) 모델의 신뢰성을 평가하기 위해
c) 데이터의 차원을 축소하기 위해
d) 모델의 학습 속도를 높이기 위해
정답: b) 모델의 신뢰성을 평가하기 위해
다음 중 데이터 분석에서 '정규화(Normalization)'의 목적이 아닌 것은?
a) 변수의 스케일을 통일
b) 모델의 수렴 속도 향상
c) 특정 변수의 영향력 증대
d) 변수 간 비교 가능성 증대
정답: c) 특정 변수의 영향력 증대
데이터 분석에서 '시각화(Visualization)'의 주요 목적이 아닌 것은?
a) 데이터의 패턴 발견
b) 복잡한 정보의 간단한 전달
c) 이상치 탐지
d) 데이터의 품질 향상
정답: d) 데이터의 품질 향상
다음 중 텍스트 마이닝 과정에 포함되지 않는 것은?
a) 토큰화(Tokenization)
b) 불용어 제거(Stop words removal)
c) 어간 추출(Stemming)
d) 주성분 분석(PCA)
정답: d) 주성분 분석(PCA)
데이터 분석에서 '과소적합(Underfitting)'이란?
a) 모델이 훈련 데이터의 패턴을 제대로 학습하지 못한 상태
b) 모델이 훈련 데이터에 지나치게 맞춰진 상태
c) 데이터의 양이 너무 많아 모델 학습이 불가능한 상태
d) 모델의 복잡도가 너무 높아 일반화가 어려운 상태
정답: a) 모델이 훈련 데이터의 패턴을 제대로 학습하지 못한 상태
다음 중 '비지도 학습(Unsupervised Learning)'의 예가 아닌 것은?
a) K-평균 군집화
b) 주성분 분석(PCA)
c) 랜덤 포레스트
d) 자기조직화 지도(SOM)
정답: c) 랜덤 포레스트
데이터 분석에서 '특이값(Outlier)' 처리 방법으로 적절하지 않은 것은?
a) 제거
b) 대체
c) 변환
d) 증폭
정답: d) 증폭
다음 중 시계열 데이터 분석 기법이 아닌 것은?
a) ARIMA
b) 지수평활법
c) K-최근접 이웃(K-NN)
d) 홀트-윈터스(Holt-Winters) 방법
정답: c) K-최근접 이웃(K-NN)
데이터 마이닝에서 '가지치기(Pruning)'의 주요 목적은?
a) 데이터의 양을 증가시키기 위해
b) 모델의 과적합을 방지하기 위해
c) 데이터의 차원을 증가시키기 위해
d) 모델의 학습 속도를 높이기 위해
정답: b) 모델의 과적합을 방지하기 위해
다음 중 텍스트 마이닝 과정에 포함되지 않는 것은?
a) 토큰화(Tokenization)
b) 불용어 제거(Stop words removal)
c) 어간 추출(Stemming)
d) 주성분 분석(PCA)
정답: d) 주성분 분석(PCA)
데이터 분석에서 '교차 검증(Cross-validation)'의 주요 목적은?
a) 데이터의 품질 향상
b) 모델의 일반화 성능 평가
c) 데이터의 차원 축소
d) 특이값 탐지
정답: b) 모델의 일반화 성능 평가
다음 중 딥러닝(Deep Learning) 모델이 아닌 것은?
a) CNN (Convolutional Neural Network)
b) RNN (Recurrent Neural Network)
c) GAN (Generative Adversarial Network)
d) SVM (Support Vector Machine)
정답: d) SVM (Support Vector Machine)
데이터 분석에서 '차원 축소(Dimensionality Reduction)'의 주요 목적이 아닌 것은?
a) 데이터 시각화 용이성 증대
b) 모델의 복잡도 감소
c) 과적합 위험 감소
d) 데이터의 양 증가
정답: d) 데이터의 양 증가
다음 중 분류(Classification) 모델의 성능 평가 지표가 아닌 것은?
a) 정밀도(Precision)
b) 재현율(Recall)
c) F1 점수
d) R-제곱(R-squared)
정답: d) R-제곱(R-squared)
데이터 마이닝에서 '서포트 벡터 머신(SVM)'의 주요 목적은?
a) 데이터 군집화
b) 이상치 탐지
c) 분류 및 회귀
d) 차원 축소
정답: c) 분류 및 회귀
다음 중 비지도 학습(Unsupervised Learning) 알고리즘이 아닌 것은?
a) K-평균 군집화
b) DBSCAN
c) 계층적 군집화
d) 나이브 베이즈
정답: d) 나이브 베이즈
데이터 분석에서 '앙상블 학습(Ensemble Learning)'의 주요 목적은?
a) 데이터의 양을 증가시키기 위해
b) 여러 모델을 결합하여 성능을 향상시키기 위해
c) 데이터의 차원을 축소하기 위해
d) 모델의 학습 속도를 높이기 위해
정답: b) 여러 모델을 결합하여 성능을 향상시키기 위해
다음 중 데이터 전처리 과정에 해당하지 않는 것은?
a) 결측치 처리
b) 이상치 제거
c) 특징 선택
d) 모델 평가
정답: d) 모델 평가
데이터 분석에서 'ROC 곡선'이 나타내는 것은?
a) 모델의 학습 속도
b) 데이터의 분포
c) 모델의 분류 성능
d) 변수 간의 상관관계
정답: c) 모델의 분류 성능
다음 중 시계열 데이터 분석에 사용되는 기법이 아닌 것은?
a) 자기회귀(AR) 모델
b) 이동평균(MA) 모델
c) ARIMA 모델
d) 로지스틱 회귀
정답: d) 로지스틱 회귀
데이터 마이닝에서 '과적합(Overfitting)'을 방지하는 방법이 아닌 것은?
a) 정규화(Regularization)
b) 교차 검증(Cross-validation)
c) 데이터 증강(Data augmentation)
d) 데이터 삭제(Data deletion)
정답: d) 데이터 삭제(Data deletion)
다음 중 텍스트 마이닝에서 사용되는 기법이 아닌 것은?
a) 감성 분석
b) 토픽 모델링
c) 개체명 인식
d) K-평균 군집화
정답: d) K-평균 군집화
데이터 분석에서 '특징 공학(Feature Engineering)'의 주요 목적은?
a) 데이터의 양을 줄이기 위해
b) 모델의 성능을 향상시키기 위해
c) 데이터의 보안을 강화하기 위해
d) 분석 속도를 높이기 위해
정답: b) 모델의 성능을 향상시키기 위해
다음 중 데이터 정규화(Normalization) 방법이 아닌 것은?
a) Min-Max 정규화
b) Z-점수 정규화
c) 로그 변환
d) 주성분 분석(PCA)
정답: d) 주성분 분석(PCA)
데이터 마이닝에서 '부스팅(Boosting)' 기법의 특징은?
a) 여러 모델을 병렬로 학습시킨다
b) 이전 모델의 오류에 가중치를 두어 순차적으로 학습한다
c) 데이터를 무작위로 추출하여 여러 모델을 만든다
d) 하나의 강력한 모델만을 사용한다
정답: b) 이전 모델의 오류에 가중치를 두어 순차적으로 학습한다
다음 중 비정형 데이터 분석 기법이 아닌 것은?
a) 자연어 처리
b) 이미지 인식
c) 음성 인식
d) 선형 회귀
정답: d) 선형 회귀
데이터 분석에서 'ETL'은 무엇의 약자인가?
a) Extract, Transform, Load
b) Evaluate, Test, Learn
c) Explore, Train, Label
d) Estimate, Track, Locate
정답: a) Extract, Transform, Load
다음 중 데이터 분석 프로젝트의 성공 요인이 아닌 것은?
a) 명확한 비즈니스 목표 설정
b) 데이터의 품질 관리
c) 적절한 분석 기법의 선택
d) 가장 최신의 기술만 사용
정답: d) 가장 최신의 기술만 사용
데이터 마이닝에서 '교차 검증(Cross-validation)'의 주요 목적은?
a) 데이터의 품질 향상
b) 모델의 일반화 성능 평가
c) 데이터의 차원 축소
d) 특이값 탐지
정답: b) 모델의 일반화 성능 평가
다음 중 시계열 데이터 분석 기법이 아닌 것은?
a) ARIMA
b) 지수 평활법
c) 홀트-윈터스 방법
d) K-최근접 이웃(K-NN)
정답: d) K-최근접 이웃(K-NN)
데이터 분석에서 '혼동 행렬(Confusion Matrix)'이 제공하는 정보가 아닌 것은?
a) 참 양성(True Positive)
b) 거짓 음성(False Negative)
c) 정밀도(Precision)
d) 평균 제곱 오차(Mean Squared Error)
정답: d) 평균 제곱 오차(Mean Squared Error)
다음 중 데이터 마이닝의 '분류(Classification)' 알고리즘이 아닌 것은?
a) 로지스틱 회귀
b) 의사결정 트리
c) K-평균 군집화
d) 서포트 벡터 머신
정답: c) K-평균 군집화
데이터 분석에서 '차원의 저주(Curse of Dimensionality)'란?
a) 데이터의 차원이 증가할수록 필요한 샘플의 수가 기하급수적으로 증가하는 현상
b) 데이터의 차원이 감소할수록 정보의 손실이 증가하는 현상
c) 데이터의 차원이 증가할수록 분석 속도가 빨라지는 현상
d) 데이터의 차원이 감소할수록 모델의 복잡도가 증가하는 현상
정답: a) 데이터의 차원이 증가할수록 필요한 샘플의 수가 기하급수적으로 증가하는 현상
다음 중 앙상블 학습(Ensemble Learning) 방법이 아닌 것은?
a) 배깅(Bagging)
b) 부스팅(Boosting)
c) 스태킹(Stacking)
d) 주성분 분석(PCA)
정답: d) 주성분 분석(PCA)
데이터 분석에서 'A/B 테스트'의 주요 목적은?
a) 데이터의 품질 향상
b) 두 가지 버전 중 더 나은 성능을 보이는 것을 선택
c) 모델의 과적합 방지
d) 데이터의 차원 축소
정답: b) 두 가지 버전 중 더 나은 성능을 보이는 것을 선택
다음 중 비정형 데이터에 해당하지 않는 것은?
a) 텍스트 문서
b) 이미지 파일
c) 음성 녹음
d) CSV 파일
정답: d) CSV 파일
데이터 마이닝에서 '부트스트래핑(Bootstrapping)'의 주요 목적은?
a) 데이터의 양을 증가시키기 위해
b) 모델의 신뢰성을 평가하기 위해
c) 데이터의 차원을 축소하기 위해
d) 모델의 학습 속도를 높이기 위해
정답: b) 모델의 신뢰성을 평가하기 위해
다음 중 데이터 분석에서 '정규화(Normalization)'의 목적이 아닌 것은?
a) 변수의 스케일을 통일
b) 모델의 수렴 속도 향상
c) 특정 변수의 영향력 증대
d) 변수 간 비교 가능성 증대
정답: c) 특정 변수의 영향력 증대
데이터 분석에서 '시각화(Visualization)'의 주요 목적이 아닌 것은?
a) 데이터의 패턴 발견
b) 복잡한 정보의 간단한 전달
c) 이상치 탐지
d) 데이터의 품질 향상
정답: d) 데이터의 품질 향상
다음 중 텍스트 마이닝 과정에 포함되지 않는 것은?
a) 토큰화(Tokenization)
b) 불용어 제거(Stop words removal)
c) 어간 추출(Stemming)
d) 주성분 분석(PCA)
정답: d) 주성분 분석(PCA)
데이터 분석에서 '과소적합(Underfitting)'이란?
a) 모델이 훈련 데이터의 패턴을 제대로 학습하지 못한 상태
b) 모델이 훈련 데이터에 지나치게 맞춰진 상태
c) 데이터의 양이 너무 많아 모델 학습이 불가능한 상태
d) 모델의 복잡도가 너무 높아 일반화가 어려운 상태
정답: a) 모델이 훈련 데이터의 패턴을 제대로 학습하지 못한 상태
다음 중 '비지도 학습(Unsupervised Learning)'의 예가 아닌 것은?
a) K-평균 군집화
b) 주성분 분석(PCA)
c) 랜덤 포레스트
d) 자기조직화 지도(SOM)
정답: c) 랜덤 포레스트
데이터 분석에서 'SQL'의 주요 용도는?
a) 이미지 처리
b) 자연어 처리
c) 데이터베이스 쿼리
d) 딥러닝 모델 구축
정답: c) 데이터베이스 쿼리
다음 중 데이터 마이닝의 '연관 규칙(Association Rule)' 분석에서 사용되는 지표가 아닌 것은?
a) 지지도(Support)
b) 신뢰도(Confidence)
c) 향상도(Lift)
d) 정확도(Accuracy)
정답: d) 정확도(Accuracy)
데이터 분석에서 '특이값(Outlier)' 처리 방법으로 적절하지 않은 것은?
a) 제거
b) 대체
c) 변환
d) 증폭
정답: d) 증폭
다음 중 시계열 데이터 분석 기법이 아닌 것은?
a) ARIMA
b) 지수평활법
c) K-최근접 이웃(K-NN)
d) 홀트-윈터스(Holt-Winters) 방법
정답: c) K-최근접 이웃(K-NN)
데이터 분석에서 '피어슨 상관계수'가 측정하는 것은?
a) 변수 간의 선형 관계
b) 변수 간의 비선형 관계
c) 변수의 인과관계
d) 변수의 분산
정답: a) 변수 간의 선형 관계
다음 중 '강화학습(Reinforcement Learning)'의 주요 구성요소가 아닌 것은?
a) 에이전트(Agent)
b) 환경(Environment)
c) 행동(Action)
d) 레이블(Label)
정답: d) 레이블(Label)
데이터 마이닝에서 '엔트로피(Entropy)'의 개념이 주로 사용되는 알고리즘은?
a) K-평균 군집화
b) 의사결정 트리
c) 서포트 벡터 머신
d) 주성분 분석
정답: b) 의사결정 트리
다음 중 '준지도 학습(Semi-supervised Learning)'의 특징은?
a) 레이블이 있는 데이터만 사용
b) 레이블이 없는 데이터만 사용
c) 레이블이 있는 데이터와 없는 데이터를 모두 사용
d) 보상 신호를 사용하여 학습
정답: c) 레이블이 있는 데이터와 없는 데이터를 모두 사용
데이터 분석에서 '멀티콜리니어리티(Multicollinearity)'가 의미하는 것은?
a) 종속변수 간의 높은 상관관계
b) 독립변수 간의 높은 상관관계
c) 독립변수와 종속변수 간의 낮은 상관관계
d) 데이터의 높은 분산
정답: b) 독립변수 간의 높은 상관관계
다음 중 '커널 트릭(Kernel Trick)'이 주로 사용되는 알고리즘은?
a) 선형 회귀
b) 로지스틱 회귀
c) 서포트 벡터 머신
d) K-평균 군집화
정답: c) 서포트 벡터 머신
데이터 분석에서 '스무딩(Smoothing)'의 주요 목적은?
a) 데이터의 노이즈 제거
b) 데이터의 차원 증가
c) 데이터의 분산 증가
d) 데이터의 비선형성 증가
정답: a) 데이터의 노이즈 제거
다음 중 '전이 학습(Transfer Learning)'의 장점이 아닌 것은?
a) 적은 데이터로도 학습 가능
b) 학습 시간 단축
c) 새로운 도메인에 빠르게 적용 가능
d) 모든 경우에 항상 더 좋은 성능 보장
정답: d) 모든 경우에 항상 더 좋은 성능 보장
데이터 분석에서 '편향-분산 트레이드오프(Bias-Variance Tradeoff)'가 의미하는 것은?
a) 모델의 복잡도와 일반화 능력 간의 균형
b) 학습 속도와 정확도 간의 균형
c) 데이터의 양과 질 간의 균형
d) 특징의 수와 모델의 성능 간의 균형
정답: a) 모델의 복잡도와 일반화 능력 간의 균형
다음 중 '그래디언트 부스팅(Gradient Boosting)'의 특징이 아닌 것은?
a) 순차적으로 약한 학습기를 생성
b) 이전 모델의 오차를 보완
c) 높은 편향을 가진 모델에 효과적
d) 항상 선형 모델을 사용
정답: d) 항상 선형 모델을 사용
데이터 분석에서 '카이제곱 검정(Chi-square test)'의 주요 용도는?
a) 연속형 변수 간의 상관관계 분석
b) 범주형 변수 간의 독립성 검정
c) 시계열 데이터의 추세 분석
d) 회귀 모델의 적합도 평가
정답: b) 범주형 변수 간의 독립성 검정
다음 중 '순환 신경망(Recurrent Neural Network)'이 주로 사용되는 분야는?
a) 이미지 분류
b) 시계열 데이터 분석
c) 연관 규칙 마이닝
d) 주성분 분석
정답: b) 시계열 데이터 분석
데이터 마이닝에서 '서포트(Support)'가 의미하는 것은?
a) 모델의 예측 정확도
b) 규칙이 데이터셋에서 나타나는 빈도
c) 변수 간의 상관관계 강도
d) 모델의 복잡도
정답: b) 규칙이 데이터셋에서 나타나는 빈도
다음 중 '차원 축소(Dimensionality Reduction)' 기법이 아닌 것은?
a) 주성분 분석(PCA)
b) t-SNE
c) 랜덤 포레스트
d) 자기 조직화 지도(SOM)
정답: c) 랜덤 포레스트
데이터 분석에서 '콜드 스타트(Cold Start)' 문제가 주로 발생하는 분야는?
a) 이미지 인식
b) 추천 시스템
c) 자연어 처리
d) 시계열 예측
정답: b) 추천 시스템
다음 중 '의사결정 트리(Decision Tree)'의 장점이 아닌 것은?
a) 해석이 쉽다
b) 비선형 관계를 모델링할 수 있다
c) 전처리가 거의 필요 없다
d) 과적합에 강하다
정답: d) 과적합에 강하다
데이터 분석에서 '실루엣 점수(Silhouette Score)'가 측정하는 것은?
a) 분류 모델의 정확도
b) 군집화의 품질
c) 회귀 모델의 적합도
d) 시계열 모델의 예측 성능
정답: b) 군집화의 품질
다음 중 '강화학습(Reinforcement Learning)'에서 사용되는 개념이 아닌 것은?
a) 정책(Policy)
b) 보상(Reward)
c) 상태(State)
d) 레이블(Label)
정답: d) 레이블(Label)
데이터 마이닝에서 '프루닝(Pruning)'이 주로 적용되는 알고리즘은?
a) K-평균 군집화
b) 의사결정 트리
c) 로지스틱 회귀
d) 주성분 분석
정답: b) 의사결정 트리
다음 중 '앙상블 학습(Ensemble Learning)'의 방법이 아닌 것은?
a) 배깅(Bagging)
b) 부스팅(Boosting)
c) 스태킹(Stacking)
d) 정규화(Regularization)
정답: d) 정규화(Regularization)
데이터 분석에서 '피처 해싱(Feature Hashing)'의 주요 목적은 무엇인가?
a) 데이터 암호화
b) 차원 축소
c) 데이터 정규화
d) 이상치 탐지
정답: b) 차원 축소
다음 중 '준지도 학습(Semi-supervised Learning)'의 특징으로 가장 적절한 것은?
a) 레이블이 없는 데이터만 사용한다
b) 레이블이 있는 데이터와 없는 데이터를 모두 활용한다
c) 강화학습의 한 종류이다
d) 항상 딥러닝 모델을 사용한다
정답: b) 레이블이 있는 데이터와 없는 데이터를 모두 활용한다
데이터 마이닝에서 '연관성 분석(Association Analysis)'의 주요 응용 분야는?
a) 이미지 분류
b) 시계열 예측
c) 장바구니 분석
d) 자연어 처리
정답: c) 장바구니 분석
다음 중 '앙상블 학습(Ensemble Learning)'의 방법이 아닌 것은?
a) 배깅(Bagging)
b) 부스팅(Boosting)
c) 스태킹(Stacking)
d) 클러스터링(Clustering)
정답: d) 클러스터링(Clustering)
데이터 분석에서 '정보 이득(Information Gain)'이 주로 사용되는 알고리즘은?
a) K-평균 군집화
b) 의사결정 트리
c) 서포트 벡터 머신
d) 선형 회귀
정답: b) 의사결정 트리
'깁스 샘플링(Gibbs Sampling)'은 어떤 통계적 추론 방법의 일종인가?
a) 최대 우도 추정
b) 마르코프 체인 몬테카를로 (MCMC)
c) 기대값 최대화 (EM) 알고리즘
d) 그래디언트 부스팅
정답: b) 마르코프 체인 몬테카를로 (MCMC)
데이터 분석에서 '허프만 코딩(Huffman Coding)'의 주요 용도는?
a) 데이터 압축
b) 특징 선택
c) 이상치 탐지
d) 모델 평가
정답: a) 데이터 압축
'포아송 분포(Poisson Distribution)'가 주로 모델링하는 데이터 유형은?
a) 연속형 데이터
b) 이진 데이터
c) 계수 데이터
d) 순서형 데이터
정답: c) 계수 데이터
다음 중 '자연어 처리(NLP)'에서 사용되는 기법이 아닌 것은?
a) 워드 임베딩
b) 토큰화
c) 레마타이제이션
d) 주성분 분석
정답: d) 주성분 분석
'큐러닝(Q-Learning)'은 어떤 유형의 기계학습 방법인가?
a) 지도학습
b) 비지도학습
c) 강화학습
d) 준지도학습
정답: c) 강화학습
'오토인코더(Autoencoder)'의 주요 목적은 무엇인가?
a) 분류
b) 차원 축소
c) 시계열 예측
d) 연관 규칙 발견
정답: b) 차원 축소
데이터 분석에서 '콜드 스타트(Cold Start)' 문제가 주로 발생하는 분야는?
a) 이미지 인식
b) 추천 시스템
c) 시계열 분석
d) 텍스트 마이닝
정답: b) 추천 시스템
'라플라스 스무딩(Laplace Smoothing)'이 주로 사용되는 알고리즘은?
a) 선형 회귀
b) 나이브 베이즈
c) K-평균 군집화
d) 서포트 벡터 머신
정답: b) 나이브 베이즈
다음 중 '비모수적 방법(Non-parametric Method)'이 아닌 것은?
a) K-최근접 이웃
b) 결정 트리
c) 커널 밀도 추정
d) 로지스틱 회귀
정답: d) 로지스틱 회귀
'엘보우 방법(Elbow Method)'이 주로 사용되는 분석 기법은?
a) 주성분 분석
b) 선형 회귀
c) K-평균 군집화
d) 로지스틱 회귀
정답: c) K-평균 군집화
'편향-분산 트레이드오프(Bias-Variance Tradeoff)'에서 모델의 복잡도가 증가할 때 일반적으로 어떤 현상이 발생하는가?
a) 편향과 분산 모두 증가
b) 편향은 감소하고 분산은 증가
c) 편향과 분산 모두 감소
d) 편향은 증가하고 분산은 감소
정답: b) 편향은 감소하고 분산은 증가
'맥니마 검정(McNemar's Test)'의 주요 용도는?
a) 연속형 변수의 상관관계 분석
b) 범주형 변수의 독립성 검정
c) 대응표본의 전후 비교
d) 시계열 데이터의 정상성 검정
정답: c) 대응표본의 전후 비교
데이터 마이닝에서 '리프트(Lift)'가 측정하는 것은?
a) 모델의 예측 정확도
b) 규칙의 유용성
c) 변수 간의 상관관계
d) 클러스터의 품질
정답: b) 규칙의 유용성
'그리드 서치(Grid Search)'의 주요 목적은 무엇인가?
a) 데이터 전처리
b) 특징 선택
c) 하이퍼파라미터 최적화
d) 모델 평가
정답: c) 하이퍼파라미터 최적화
'효과 코딩(Effect Coding)'이 주로 사용되는 분석 방법은?
a) 클러스터 분석
b) 주성분 분석
c) 회귀 분석
d) 연관 규칙 마이닝
정답: c) 회귀 분석
'랜덤 워크(Random Walk)'가 주로 모델링하는 데이터 유형은?
a) 범주형 데이터
b) 시계열 데이터
c) 이진 데이터
d) 공간 데이터
정답: b) 시계열 데이터
'커널 트릭(Kernel Trick)'이 주로 사용되는 알고리즘은?
a) 선형 회귀
b) 로지스틱 회귀
c) 서포트 벡터 머신
d) 의사결정 트리
정답: c) 서포트 벡터 머신
데이터 분석에서 '섀넌 엔트로피(Shannon Entropy)'가 측정하는 것은?
a) 데이터의 복잡성
b) 모델의 정확도
c) 변수 간의 상관관계
d) 클러스터의 품질
정답: a) 데이터의 복잡성
'마할라노비스 거리(Mahalanobis Distance)'의 주요 용도는?
a) 클러스터 간 거리 측정
b) 이상치 탐지
c) 변수 선택
d) 모델 평가
정답: b) 이상치 탐지
'마르코프 체인(Markov Chain)'의 핵심 가정은?
a) 데이터의 정규성
b) 변수 간 독립성
c) 현재 상태의 미래 상태 독립성
d) 샘플의 무작위성
정답: c) 현재 상태의 미래 상태 독립성
'붓스트랩 집계(Bootstrap Aggregating, Bagging)'의 주요 목적은?
a) 모델의 분산 감소
b) 모델의 편향 감소
c) 학습 속도 향상
d) 특징 선택
정답: a) 모델의 분산 감소
'지니 불순도(Gini Impurity)'가 주로 사용되는 알고리즘은?
a) K-평균 군집화
b) 의사결정 트리
c) 로지스틱 회귀
d) 주성분 분석
정답: b) 의사결정 트리
'스태킹(Stacking)' 앙상블 방법의 특징은?
a) 약한 학습기를 순차적으로 학습
b) 여러 모델의 예측을 새로운 특징으로 사용
c) 데이터를 무작위로 재추출하여 여러 모델 학습
d) 항상 같은 종류의 모델만 사용
정답: b) 여러 모델의 예측을 새로운 특징으로 사용
'파이프라인(Pipeline)'의 주요 목적은?
a) 데이터 시각화
b) 모델 평가
c) 데이터 전처리와 모델링 과정의 자동화
d) 하이퍼파라미터 최적화
정답: c) 데이터 전처리와 모델링 과정의 자동화
'퍼셉트론(Perceptron)'은 어떤 유형의 신경망인가?
a) 다층 신경망
b) 합성곱 신경망
c) 단층 신경망
d) 순환 신경망
정답: c) 단층 신경망
'가우시안 혼합 모델(Gaussian Mixture Model)'의 주요 용도는?
a) 분류
b) 회귀
c) 밀도 추정
d) 특징 선택
정답: c) 밀도 추정
'드롭아웃(Dropout)'이 주로 사용되는 목적은?
a) 학습 속도 향상
b) 과적합 방지
c) 모델 복잡도 증가
d) 데이터 증강
정답: b) 과적합 방지
'콘볼루션(Convolution)' 연산이 주로 사용되는 신경망 구조는?
a) 순환 신경망 (RNN)
b) 합성곱 신경망 (CNN)
c) 심층 신경망 (DNN)
d) 오토인코더 (Autoencoder)
정답: b) 합성곱 신경망 (CNN)
'교차 엔트로피(Cross-Entropy)'가 주로 사용되는 상황은?
a) 회귀 문제의 손실 함수
b) 분류 문제의 손실 함수
c) 클러스터링의 평가 지표
d) 특징 선택의 기준
정답: b) 분류 문제의 손실 함수
'DBSCAN' 알고리즘의 주요 특징은?
a) 클러스터 수를 사전에 지정해야 함
b) 밀도 기반 클러스터링
c) 항상 구형의 클러스터만 생성
d) 계층적 클러스터링 방법
정답: b) 밀도 기반 클러스터링
'라그랑주 승수법(Lagrange Multiplier Method)'이 최적화 문제에서 주로 사용되는 목적은?
a) 목적 함수의 최솟값 찾기
b) 제약 조건이 있는 최적화 문제 해결
c) 경사 하강법의 학습률 조정
d) 오버피팅 방지
정답: b) 제약 조건이 있는 최적화 문제 해결
'힌지 손실 함수(Hinge Loss Function)'가 주로 사용되는 알고리즘은?
a) 로지스틱 회귀
b) 서포트 벡터 머신
c) 의사결정 트리
d) K-평균 군집화
정답: b) 서포트 벡터 머신
'잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)'의 주요 용도는?
a) 이미지 분류
b) 토픽 모델링
c) 시계열 예측
d) 이상치 탐지
정답: b) 토픽 모델링
'베이지안 최적화(Bayesian Optimization)'의 주요 목적은?
a) 모델 학습
b) 특징 선택
c) 하이퍼파라미터 튜닝
d) 데이터 전처리
정답: c) 하이퍼파라미터 튜닝
'맥스 풀링(Max Pooling)'이 주로 사용되는 신경망 구조는?
a) 순환 신경망 (RNN)
b) 합성곱 신경망 (CNN)
c) 심층 신경망 (DNN)
d) 오토인코더 (Autoencoder)
정답: b) 합성곱 신경망 (CNN)