'엘라스틱넷(Elastic Net)' 회귀의 특징은?
a) L1 정규화만 사용
b) L2 정규화만 사용
c) L1과 L2 정규화를 모두 사용
d) 정규화를 사용하지 않음
정답: c) L1과 L2 정규화를 모두 사용
'쿨백-라이블러 발산(Kullback-Leibler Divergence)'이 측정하는 것은?
a) 두 확률 분포 간의 차이
b) 데이터의 분산
c) 모델의 정확도
d) 변수 간의 상관관계
정답: a) 두 확률 분포 간의 차이
'멀티암드 밴딧(Multi-armed Bandit)' 문제가 주로 다루는 분야는?
a) 이미지 인식
b) 자연어 처리
c) 강화 학습
d) 클러스터링
정답: c) 강화 학습
'가우시안 프로세스(Gaussian Process)'의 주요 응용 분야는?
a) 분류
b) 회귀
c) 클러스터링
d) 차원 축소
정답: b) 회귀
'소프트맥스 함수(Softmax Function)'가 주로 사용되는 상황은?
a) 이진 분류
b) 다중 클래스 분류
c) 회귀 분석
d) 클러스터링
정답: b) 다중 클래스 분류
'변분 오토인코더(Variational Autoencoder, VAE)'의 주요 목적은?
a) 이미지 분류
b) 생성 모델링
c) 시계열 예측
d) 텍스트 분류
정답: b) 생성 모델링
'워드2벡(Word2Vec)' 알고리즘의 주요 용도는?
a) 문장 생성
b) 단어 임베딩
c) 문서 요약
d) 감성 분석
정답: b) 단어 임베딩
'그래디언트 클리핑(Gradient Clipping)'의 주요 목적은?
a) 과적합 방지
b) 학습 속도 향상
c) 기울기 폭발 문제 해결
d) 모델 복잡도 증가
정답: c) 기울기 폭발 문제 해결
'LSTM(Long Short-Term Memory)' 네트워크가 해결하고자 하는 주요 문제는?
a) 공간적 특징 추출
b) 장기 의존성 문제
c) 과적합
d) 차원의 저주
정답: b) 장기 의존성 문제
'앙상블 학습(Ensemble Learning)'에서 '배깅(Bagging)'과 '부스팅(Boosting)'의 주요 차이점은?
a) 사용하는 기본 모델의 종류
b) 모델 학습의 병렬성 vs 순차성
c) 적용 가능한 문제의 유형
d) 최종 예측값 계산 방식
정답: b) 모델 학습의 병렬성 vs 순차성
'주성분 분석(PCA)'과 '독립 성분 분석(ICA)'의 주요 차이점은?
a) 차원 축소 가능 여부
b) 선형성 가정
c) 직교성 vs 독립성 추구
d) 계산 복잡도
정답: c) 직교성 vs 독립성 추구
'트랜스포머(Transformer)' 모델의 핵심 구성 요소는?
a) 순환 층(Recurrent Layer)
b) 합성곱 층(Convolutional Layer)
c) 어텐션 메커니즘(Attention Mechanism)
d) 풀링 층(Pooling Layer)
정답: c) 어텐션 메커니즘(Attention Mechanism)
'베이지안 네트워크(Bayesian Network)'의 주요 특징은?
a) 순환 구조를 허용함
b) 확률적 추론이 가능함
c) 항상 완전 연결 그래프 형태임
d) 시계열 데이터에만 적용 가능함
정답: b) 확률적 추론이 가능함
'쿼드트리(Quadtree)'가 주로 사용되는 분야는?
a) 자연어 처리
b) 시계열 분석
c) 공간 데이터 인덱싱
d) 음성 인식
정답: c) 공간 데이터 인덱싱
'커널 밀도 추정(Kernel Density Estimation)'의 주요 목적은?
a) 분류
b) 회귀
c) 확률 밀도 함수 추정
d) 특징 선택
정답: c) 확률 밀도 함수 추정
'데이터 마트(Data Mart)'의 주요 특징은 무엇인가?
a) 전사적 데이터를 통합하여 저장
b) 특정 부서나 기능에 최적화된 소규모 데이터 웨어하우스
c) 실시간 트랜잭션 처리에 최적화
d) 비정형 데이터 저장에 특화
정답: b) 특정 부서나 기능에 최적화된 소규모 데이터 웨어하우스
'ETL 프로세스'에서 'T'는 무엇을 의미하는가?
a) Transfer
b) Transport
c) Transform
d) Translate
정답: c) Transform
'데이터 품질(Data Quality)'의 주요 차원이 아닌 것은?
a) 정확성
b) 일관성
c) 완전성
d) 가변성
정답: d) 가변성
'빅데이터의 3V' 중 'Variety'가 의미하는 것은?
a) 데이터의 규모
b) 데이터의 다양성
c) 데이터의 속도
d) 데이터의 가치
정답: b) 데이터의 다양성
'데이터 거버넌스(Data Governance)'의 주요 목적이 아닌 것은?
a) 데이터 품질 향상
b) 데이터 보안 강화
c) 데이터 활용 촉진
d) 데이터 생성량 증가
정답: d) 데이터 생성량 증가
'데이터 웨어하우스(Data Warehouse)'와 '운영 데이터베이스(Operational Database)'의 주요 차이점은?
a) 데이터 갱신 빈도
b) 데이터 저장 용량
c) 사용하는 DBMS 종류
d) 데이터 보안 수준
정답: a) 데이터 갱신 빈도
'데이터 마이닝(Data Mining)'에서 사용되는 '연관 규칙(Association Rule)' 분석의 주요 지표가 아닌 것은?
a) 지지도(Support)
b) 신뢰도(Confidence)
c) 향상도(Lift)
d) 정확도(Accuracy)
정답: d) 정확도(Accuracy)
'빅데이터 분석'에서 말하는 '3V+1C' 중 '1C'가 의미하는 것은?
a) Cost
b) Complexity
c) Consistency
d) Complexity
정답: d) Complexity
'데이터 레이크(Data Lake)'의 특징으로 올바르지 않은 것은?
a) 구조화, 반구조화, 비구조화된 데이터를 모두 저장할 수 있다
b) 스키마-온-라이트(Schema-on-Write) 방식을 사용한다
c) 데이터의 원본을 그대로 저장한다
d) 다양한 분석 목적에 활용될 수 있다
정답: b) 스키마-온-라이트(Schema-on-Write) 방식을 사용한다
'데이터 분석 프로세스'에서 'CRISP-DM' 방법론의 단계가 아닌 것은?
a) 비즈니스 이해
b) 데이터 이해
c) 데이터 준비
d) 데이터 시각화
정답: d) 데이터 시각화
'텍스트 마이닝(Text Mining)'에서 사용되는 '불용어(Stop Words)' 처리의 주요 목적은?
a) 텍스트의 길이를 늘리기 위해
b) 분석에 불필요한 단어를 제거하여 효율성을 높이기 위해
c) 문법적 오류를 수정하기 위해
d) 텍스트의 감성을 분석하기 위해
정답: b) 분석에 불필요한 단어를 제거하여 효율성을 높이기 위해
'데이터 분석'에서 '과적합(Overfitting)' 문제를 해결하기 위한 방법이 아닌 것은?
a) 교차 검증(Cross Validation) 사용
b) 정규화(Regularization) 적용
c) 데이터 양 줄이기
d) 앙상블(Ensemble) 기법 사용
정답: c) 데이터 양 줄이기
'데이터 시각화(Data Visualization)'에서 연속형 변수의 분포를 표현하기에 적합한 그래프는?
a) 원 그래프
b) 막대 그래프
c) 히스토그램
d) 산점도
정답: c) 히스토그램
'데이터 분석에서 사용되는 '로그 변환(Log Transformation)'의 주요 목적은?
a) 데이터의 스케일을 줄이고 정규성을 향상시키기 위해
b) 데이터의 분산을 증가시키기 위해
c) 데이터의 선형성을 감소시키기 위해
d) 데이터의 이상치를 제거하기 위해
정답: a) 데이터의 스케일을 줄이고 정규성을 향상시키기 위해
'데이터 마이닝에서 '의사결정 트리(Decision Tree)' 알고리즘의 장점이 아닌 것은?
a) 결과 해석이 용이하다
b) 수치형과 범주형 변수를 모두 처리할 수 있다
c) 비선형 관계도 모델링할 수 있다
d) 항상 전역 최적해를 찾는다
정답: d) 항상 전역 최적해를 찾는다
'OLAP(Online Analytical Processing)'의 주요 연산이 아닌 것은?
a) Roll-up
b) Drill-down
c) Slice and Dice
d) Normalize
정답: d) Normalize
'데이터 분석에서 '상관 분석(Correlation Analysis)'과 '인과 분석(Causal Analysis)'의 차이점으로 올바른 것은?
a) 상관 분석은 두 변수 간의 관계만을, 인과 분석은 여러 변수 간의 관계를 분석한다
b) 상관 분석은 선형 관계만을, 인과 분석은 비선형 관계도 분석할 수 있다
c) 상관 분석은 관계의 강도를, 인과 분석은 영향의 방향성을 파악한다
d) 상관 분석은 범주형 변수에, 인과 분석은 연속형 변수에만 적용 가능하다
정답: c) 상관 분석은 관계의 강도를, 인과 분석은 영향의 방향성을 파악한다
'빅데이터 처리를 위한 '하둡(Hadoop)' 프레임워크의 핵심 구성 요소가 아닌 것은?
a) HDFS (Hadoop Distributed File System)
b) MapReduce
c) YARN (Yet Another Resource Negotiator)
d) SQL
정답: d) SQL
'데이터 분석에서 '주성분 분석(PCA)'의 주요 목적은?
a) 데이터의 분류
b) 데이터의 군집화
c) 차원 축소
d) 이상치 탐지
정답: c) 차원 축소
'데이터 마이닝에서 '서포트 벡터 머신(SVM)'의 핵심 아이디어는?
a) 결정 경계의 마진을 최대화하는 것
b) 트리 구조를 이용해 데이터를 분류하는 것
c) 뉴런의 활성화 함수를 모방하는 것
d) 확률적 생성 모델을 만드는 것
정답: a) 결정 경계의 마진을 최대화하는 것
'데이터 분석 프로젝트에서 '탐색적 데이터 분석(EDA)'의 역할로 적절하지 않은 것은?
a) 데이터의 기본적인 특성 파악
b) 이상치나 결측치 발견
c) 변수 간 관계 탐색
d) 최종 모델 선택
정답: d) 최종 모델 선택
'시계열 데이터 분석에서 'ARIMA' 모델의 'I'가 의미하는 것은?
a) Independent
b) Integrated
c) Iterative
d) Inverse
정답: b) Integrated
'데이터 분석에서 '교차 검증(Cross-validation)'을 사용하는 주요 목적은?
a) 모델의 과적합 방지
b) 데이터의 정규화
c) 특징 선택
d) 결측치 처리
정답: a) 모델의 과적합 방지
'데이터 분석에서 '로지스틱 회귀(Logistic Regression)'의 주요 특징으로 올바르지 않은 것은?
a) 이진 분류 문제에 주로 사용된다
b) 종속 변수의 로그 오즈(log odds)를 모델링한다
c) 최대 우도 추정법을 사용하여 파라미터를 추정한다
d) 항상 선형 결정 경계를 만든다
정답: d) 항상 선형 결정 경계를 만든다
'텍스트 마이닝에서 'TF-IDF(Term Frequency-Inverse Document Frequency)'가 측정하는 것은?
a) 문서 내 단어의 빈도
b) 전체 문서 집합에서 특정 단어의 중요도
c) 문장의 길이
d) 문서의 주제
정답: b) 전체 문서 집합에서 특정 단어의 중요도
'데이터 분석에서 '앙상블 학습(Ensemble Learning)' 방법 중 '랜덤 포레스트(Random Forest)'의 특징으로 올바르지 않은 것은?
a) 여러 개의 의사결정 트리를 사용한다
b) 배깅(Bagging) 방식을 활용한다
c) 특징 선택 시 무작위성을 도입한다
d) 항상 선형 모델보다 성능이 우수하다
정답: d) 항상 선형 모델보다 성능이 우수하다
'데이터 마이닝에서 '클러스터링(Clustering)' 알고리즘의 평가 지표로 적절하지 않은 것은?
a) 실루엣 계수(Silhouette Coefficient)
b) 데이비스-볼딘 지수(Davies-Bouldin Index)
c) 칼린스키-하라바스 지수(Calinski-Harabasz Index)
d) F1 점수(F1 Score)
정답: d) F1 점수(F1 Score)
'빅데이터 처리를 위한 '스파크(Spark)'의 주요 특징으로 올바르지 않은 것은?
a) 인메모리 처리를 지원한다
b) 배치 처리와 실시간 처리를 모두 지원한다
c) 다양한 프로그래밍 언어 인터페이스를 제공한다
d) 관계형 데이터베이스 관리에 최적화되어 있다
정답: d) 관계형 데이터베이스 관리에 최적화되어 있다
'데이터 분석에서 '교차 엔트로피(Cross-Entropy)'가 주로 사용되는 상황은?
a) 회귀 문제의 손실 함수로
b) 분류 문제의 손실 함수로
c) 클러스터링의 평가 지표로
d) 차원 축소의 목적 함수로
정답: b) 분류 문제의 손실 함수로
'데이터 웨어하우스 설계에서 '스타 스키마(Star Schema)'의 특징으로 올바르지 않은 것은?
a) 중앙에 사실 테이블(Fact Table)이 위치한다
b) 차원 테이블(Dimension Table)들이 사실 테이블을 둘러싼다
c) 높은 수준의 정규화를 유지한다
d) 쿼리 성능이 일반적으로 우수하다
정답: c) 높은 수준의 정규화를 유지한다
'데이터 분석에서 '그래디언트 부스팅(Gradient Boosting)' 알고리즘의 특징으로 올바르지 않은 것은?
a) 약한 학습기를 순차적으로 학습시킨다
b) 이전 모델의 오차를 보완하는 방식으로 학습한다
c) 일반적으로 의사결정 트리를 기본 학습기로 사용한다
d) 항상 랜덤 포레스트보다 빠른 학습 속도를 보인다
정답: d) 항상 랜덤 포레스트보다 빠른 학습 속도를 보인다
'데이터 마이닝에서 '연관 규칙 분석(Association Rule Analysis)'의 지표 중 '신뢰도(Confidence)'가 의미하는 것은?
a) 전체 거래 중 특정 항목 조합이 포함된 비율
b) 항목 A를 포함한 거래 중 항목 B도 포함된 비율
c) 규칙이 우연히 발생할 가능성 대비 실제 발생 비율
d) 두 항목 간의 독립성 정도
정답: b) 항목 A를 포함한 거래 중 항목 B도 포함된 비율
'시계열 데이터 분석에서 '계절성(Seasonality)'이란?
a) 시간에 따라 일정한 주기로 반복되는 패턴
b) 시간에 따른 전반적인 증가 또는 감소 추세
c) 예측할 수 없는 불규칙한 변동
d) 특정 사건으로 인한 일시적인 변화
정답: a) 시간에 따라 일정한 주기로 반복되는 패턴
'데이터 분석에서 'Ridge 회귀'와 'Lasso 회귀'의 주요 차이점은?
a) Ridge는 L2 정규화를, Lasso는 L1 정규화를 사용한다
b) Ridge는 변수 선택이 가능하고, Lasso는 불가능하다
c) Ridge는 선형 모델에만 적용 가능하고, Lasso는 비선형 모델에도 적용 가능하다
d) Ridge는 과적합 방지에 효과적이고, Lasso는 그렇지 않다
정답: a) Ridge는 L2 정규화를, Lasso는 L1 정규화를 사용한다
'텍스트 마이닝에서 '토픽 모델링(Topic Modeling)'의 대표적인 알고리즘인 'LDA(Latent Dirichlet Allocation)'의 특징으로 올바르지 않은 것은?
a) 문서를 토픽들의 확률적 혼합으로 표현한다
b) 비지도 학습 방법이다
c) 각 단어가 하나의 토픽에만 속한다고 가정한다
d) 문서 집합에서 잠재적인 주제를 발견하는 데 사용된다
정답: c) 각 단어가 하나의 토픽에만 속한다고 가정한다
'데이터 분석에서 '주성분 분석(PCA)'과 '요인 분석(Factor Analysis)'의 주요 차이점은?
a) PCA는 차원 축소가 목적이고, 요인 분석은 잠재 변수 발견이 목적이다
b) PCA는 비지도 학습이고, 요인 분석은 지도 학습이다
c) PCA는 선형 변환만 가능하고, 요인 분석은 비선형 변환도 가능하다
d) PCA는 정규화된 데이터에만 적용 가능하고, 요인 분석은 그렇지 않다
정답: a) PCA는 차원 축소가 목적이고, 요인 분석은 잠재 변수 발견이 목적이다
'데이터 마이닝에서 'K-평균 군집화(K-means Clustering)' 알고리즘의 한계점으로 올바르지 않은 것은?
a) 초기 중심점 선택에 따라 결과가 달라질 수 있다
b) 군집의 개수(K)를 사전에 지정해야 한다
c) 이상치에 민감하다
d) 범주형 변수를 직접 처리할 수 있다
정답: d) 범주형 변수를 직접 처리할 수 있다
'빅데이터 분석에서 '맵리듀스(MapReduce)' 프로그래밍 모델의 주요 단계가 아닌 것은?
a) Map
b) Shuffle
c) Reduce
d) Normalize
정답: d) Normalize
'데이터 분석에서 'ROC 곡선(Receiver Operating Characteristic curve)'이 나타내는 것은?
a) 모델의 학습 속도
b) 특징의 중요도
c) 분류 모델의 성능
d) 클러스터의 품질
정답: c) 분류 모델의 성능
'데이터 웨어하우스에서 'ETL' 프로세스의 'Transform' 단계에서 수행되는 작업이 아닌 것은?
a) 데이터 정제
b) 데이터 통합
c) 데이터 변환
d) 데이터 백업
정답: d) 데이터 백업
'데이터 분석에서 '교차 검증(Cross-validation)'의 한 방법인 'k-fold 교차 검증'의 특징으로 올바르지 않은 것은?
a) 데이터를 k개의 부분집합으로 나눈다
b) k-1개의 부분집합으로 학습하고 나머지 1개로 검증한다
c) 이 과정을 k번 반복한다
d) k값이 클수록 항상 더 정확한 결과를 얻는다
정답: d) k값이 클수록 항상 더 정확한 결과를 얻는다
'텍스트 마이닝에서 '워드 임베딩(Word Embedding)'의 목적으로 가장 적절한 것은?
a) 문서의 주제 분류
b) 단어의 빈도 계산
c) 단어를 벡터 공간에 표현
d) 문장의 감성 분석
정답: c) 단어를 벡터 공간에 표현
'데이터 분석에서 '앙상블 학습(Ensemble Learning)' 방법 중 '스태킹(Stacking)'의 특징으로 올바른 것은?
a) 여러 모델의 예측 결과를 새로운 학습 데이터로 사용한다
b) 가중치를 무작위로 부여하여 여러 모델을 결합한다
c) 항상 동일한 종류의 모델만을 사용한다
d) 오차가 큰 샘플에 더 큰 가중치를 부여한다
정답: a) 여러 모델의 예측 결과를 새로운 학습 데이터로 사용한다
'데이터베이스에서 'ACID' 속성 중 'Isolation'이 의미하는 것은?
a) 트랜잭션의 부분적 실행을 방지
b) 동시에 실행되는 트랜잭션 간의 독립성 보장
c) 시스템 장애 발생 시 일관성 있는 상태로 복구
d) 트랜잭션 실행 전후의 데이터베이스 일관성 유지
정답: b) 동시에 실행되는 트랜잭션 간의 독립성 보장
'데이터 분석에서 '편향-분산 트레이드오프(Bias-Variance Tradeoff)'와 관련하여 올바르지 않은 것은?
a) 모델의 복잡도가 증가할수록 일반적으로 편향은 감소하고 분산은 증가한다
b) 과적합된 모델은 높은 편향과 낮은 분산을 보인다
c) 과소적합된 모델은 높은 편향과 낮은 분산을 보인다
d) 최적의 모델은 편향과 분산 사이의 균형을 찾는 것이다
정답: b) 과적합된 모델은 높은 편향과 낮은 분산을 보인다
'데이터 마이닝에서 '의사결정 트리(Decision Tree)' 알고리즘의 분할 기준으로 사용되지 않는 것은?
a) 지니 불순도(Gini Impurity)
b) 정보 이득(Information Gain)
c) 카이제곱 통계량(Chi-square Statistic)
d) 피어슨 상관계수(Pearson Correlation Coefficient)
정답: d) 피어슨 상관계수(Pearson Correlation Coefficient)
'시계열 데이터 분석에서 'SARIMA' 모델의 'S'가 나타내는 것은?
a) Seasonal (계절성)
b) Standard (표준)
c) Smooth (평활)
d) Stochastic (확률적)
정답: a) Seasonal (계절성)
'데이터 분석에서 '정규화(Normalization)'와 '표준화(Standardization)'의 차이점으로 올바른 것은?
a) 정규화는 데이터를 특정 범위로 변환하고, 표준화는 평균 0, 분산 1로 변환한다
b) 정규화는 이상치에 민감하지 않고, 표준화는 이상치에 민감하다
c) 정규화는 선형 변환이고, 표준화는 비선형 변환이다
d) 정규화는 범주형 변수에만 적용 가능하고, 표준화는 연속형 변수에만 적용 가능하다
정답: a) 정규화는 데이터를 특정 범위로 변환하고, 표준화는 평균 0, 분산 1로 변환한다
'빅데이터 처리를 위한 '하둡(Hadoop)' 생태계의 구성 요소가 아닌 것은?
a) Hive
b) Pig
c) Spark
d) jQuery
정답: d) jQuery
'데이터 분석에서 '혼동 행렬(Confusion Matrix)'을 통해 계산할 수 없는 지표는?
a) 정확도(Accuracy)
b) 정밀도(Precision)
c) 재현율(Recall)
d) R-제곱(R-squared)
정답: d) R-제곱(R-squared)
'데이터 마이닝에서 '서포트 벡터 머신(SVM)'의 특징으로 올바르지 않은 것은?
a) 커널 트릭을 이용해 비선형 분류가 가능하다
b) 마진을 최대화하는 결정 경계를 찾는다
c) 이상치에 상대적으로 덜 민감하다
d) 항상 다른 분류 알고리즘보다 높은 성능을 보인다
정답: d) 항상 다른 분류 알고리즘보다 높은 성능을 보인다
'데이터 분석에서 '엘보우 방법(Elbow Method)'이 주로 사용되는 목적은?
a) 주성분 분석의 차원 수 결정
b) K-평균 군집화의 최적 군집 수 결정
c) 회귀 분석의 유의 변수 선택
d) 신경망의 은닉층 개수 결정
정답: b) K-평균 군집화의 최적 군집 수 결정
'텍스트 마이닝에서 'n-gram' 기법이 의미하는 것은?
a) n개의 연속된 단어 시퀀스
b) 문서 내 상위 n개의 중요 단어
c) n차원 벡터로 표현된 단어
d) n개의 주제로 문서를 분류하는 방법
정답: a) n개의 연속된 단어 시퀀스
'데이터 분석에서 '오버샘플링(Oversampling)'과 '언더샘플링(Undersampling)'이 주로 해결하고자 하는 문제는?
a) 차원의 저주
b) 클래스 불균형
c) 다중공선성
d) 과적합
정답: b) 클래스 불균형
'데이터 웨어하우스의 특징으로 올바르지 않은 것은?
a) 주제 중심적(Subject-oriented)
b) 통합된(Integrated)
c) 시간 가변적(Time-variant)
d) 실시간 업데이트(Real-time updated)
정답: d) 실시간 업데이트(Real-time updated)
'데이터 분석에서 '배깅(Bagging)'과 '부스팅(Boosting)'의 차이점으로 올바른 것은?
a) 배깅은 병렬 학습, 부스팅은 순차 학습을 수행한다
b) 배깅은 분류 문제에만, 부스팅은 회귀 문제에만 사용된다
c) 배깅은 오차에 가중치를 부여하고, 부스팅은 그렇지 않다
d) 배깅은 과적합에 취약하고, 부스팅은 과소적합에 취약하다
정답: a) 배깅은 병렬 학습, 부스팅은 순차 학습을 수행한다
'시계열 데이터 분석에서 '자기상관함수(ACF)'와 '편자기상관함수(PACF)'의 주요 용도는?
a) 시계열의 정상성 판단
b) ARIMA 모델의 차수(p, q) 결정
c) 시계열의 계절성 탐지
d) 시계열 데이터의 결측치 보간
정답: b) ARIMA 모델의 차수(p, q) 결정
'데이터 마이닝에서 '연관 규칙 분석'의 '향상도(Lift)' 지표가 1보다 큰 경우의 의미는?
a) 두 아이템이 독립적으로 구매된다
b) 두 아이템이 음의 상관관계를 가진다
c) 두 아이템이 양의 상관관계를 가진다
d) 두 아이템 사이에 인과관계가 있다
정답: c) 두 아이템이 양의 상관관계를 가진다
'데이터 분석에서 '차원의 저주(Curse of Dimensionality)'와 관련하여 올바르지 않은 것은?
a) 차원이 증가할수록 필요한 샘플의 수가 기하급수적으로 증가한다
b) 고차원 공간에서는 모든 점들이 서로 가까워지는 경향이 있다
c) 차원이 증가할수록 모델의 복잡도가 항상 감소한다
d) 차원 축소 기법을 통해 이 문제를 완화할 수 있다
정답: c) 차원이 증가할수록 모델의 복잡도가 항상 감소한다
'데이터베이스에서 'ACID' 속성 중 'Durability'가 의미하는 것은?
a) 트랜잭션의 부분적 실행 방지
b) 트랜잭션 실행 전후의 데이터베이스 일관성 유지
c) 동시 실행되는 트랜잭션 간의 독립성 보장
d) 완료된 트랜잭션의 결과가 영구적으로 반영됨
정답: d) 완료된 트랜잭션의 결과가 영구적으로 반영됨
'데이터 마이닝에서 '나이브 베이즈(Naive Bayes)' 분류기의 '나이브(Naive)'가 의미하는 가정은?
a) 모든 특성이 동등하게 중요하다
b) 특성들 간에 독립성이 있다
c) 데이터가 정규 분포를 따른다
d) 클래스 간 분포가 균형을 이룬다
정답: b) 특성들 간에 독립성이 있다
'데이터 분석에서 'AUC-ROC' 곡선이 나타내는 것은?
a) 모델의 학습 속도
b) 특성의 중요도
c) 분류 모델의 성능
d) 군집화의 품질
정답: c) 분류 모델의 성능
'빅데이터 처리에서 'CAP 이론'의 세 가지 요소가 아닌 것은?
a) Consistency (일관성)
b) Availability (가용성)
c) Partition Tolerance (분할 내성)
d) Performance (성능)
정답: d) Performance (성능)
'데이터 분석에서 '릿지 회귀(Ridge Regression)'가 주로 해결하고자 하는 문제는?
a) 과적합
b) 결측치
c) 이상치
d) 클래스 불균형
정답: a) 과적합
'텍스트 마이닝에서 'LDA(Latent Dirichlet Allocation)' 모델의 주요 목적은?
a) 감성 분석
b) 개체명 인식
c) 토픽 모델링
d) 기계 번역
정답: c) 토픽 모델링
'데이터 분석에서 '교차 검증(Cross-validation)'의 주요 목적은?
a) 모델의 일반화 성능 평가
b) 특성 선택
c) 이상치 탐지
d) 데이터 정규화
정답: a) 모델의 일반화 성능 평가
'시계열 데이터 분석에서 '정상성(Stationarity)'의 의미로 가장 적절한 것은?
a) 데이터에 결측치가 없는 상태
b) 시간에 따라 통계적 특성이 일정한 상태
c) 데이터가 선형 추세를 보이는 상태
d) 계절성이 제거된 상태
정답: b) 시간에 따라 통계적 특성이 일정한 상태
'데이터 마이닝에서 '랜덤 포레스트(Random Forest)' 알고리즘의 특징이 아닌 것은?
a) 배깅(Bagging)을 사용한다
b) 여러 개의 의사결정 트리로 구성된다
c) 특성 선택 시 무작위성을 도입한다
d) 가중치 업데이트를 통해 순차적으로 학습한다
정답: d) 가중치 업데이트를 통해 순차적으로 학습한다
'데이터 분석에서 '과적합(Overfitting)'을 방지하기 위한 방법이 아닌 것은?
a) 정규화(Regularization) 적용
b) 교차 검증(Cross-validation) 사용
c) 데이터 증강(Data augmentation)
d) 특성의 수 최대화
정답: d) 특성의 수 최대화
'데이터 웨어하우스의 '스타 스키마(Star Schema)'에 대한 설명으로 올바르지 않은 것은?
a) 중앙에 사실 테이블(Fact table)이 위치한다
b) 차원 테이블(Dimension table)이 사실 테이블을 둘러싼다
c) 정규화 수준이 높다
d) 쿼리 성능이 일반적으로 우수하다
정답: c) 정규화 수준이 높다
'데이터 분석에서 '주성분 분석(PCA)'의 주요 목적은?
a) 데이터의 분류
b) 차원 축소
c) 이상치 탐지
d) 시계열 예측
정답: b) 차원 축소
'빅데이터 처리 기술 중 '하둡(Hadoop)'의 주요 구성요소가 아닌 것은?
a) HDFS (Hadoop Distributed File System)
b) MapReduce
c) YARN (Yet Another Resource Negotiator)
d) SQL
정답: d) SQL
'데이터 마이닝에서 '서포트 벡터 머신(SVM)'의 핵심 아이디어는?
a) 결정 경계의 마진을 최대화하는 것
b) 트리 구조를 이용해 데이터를 분류하는 것
c) 확률적 생성 모델을 만드는 것
d) 뉴런의 활성화 함수를 모방하는 것
정답: a) 결정 경계의 마진을 최대화하는 것
'텍스트 마이닝에서 'TF-IDF'가 측정하는 것은?
a) 문서 내 단어의 빈도
b) 전체 문서 집합에서 특정 단어의 중요도
c) 문장의 길이
d) 문서의 주제
정답: b) 전체 문서 집합에서 특정 단어의 중요도
'데이터 분석에서 '로지스틱 회귀(Logistic Regression)'가 주로 사용되는 문제 유형은?
a) 연속형 변수 예측
b) 이진 분류
c) 다중 회귀
d) 군집화
정답: b) 이진 분류
'데이터 분석에서 '앙상블 학습(Ensemble Learning)'의 방법이 아닌 것은?
a) 배깅(Bagging)
b) 부스팅(Boosting)
c) 스태킹(Stacking)
d) 정규화(Regularization)
정답: d) 정규화(Regularization)
'시계열 데이터 분석에서 'ARIMA' 모델의 'MA'가 의미하는 것은?
a) Moving Average
b) Maximum Amplitude
c) Median Analysis
d) Multiple Alignment
정답: a) Moving Average
'데이터 마이닝에서 '연관 규칙 분석'의 '지지도(Support)' 지표가 의미하는 것은?
a) 항목 A를 포함한 거래 중 항목 B도 포함된 비율
b) 전체 거래 중 항목 A와 B를 동시에 포함한 거래의 비율
c) 항목 A와 B가 동시에 발생할 확률과 개별적으로 발생할 확률의 비
d) 항목 A를 구매한 고객이 항목 B도 구매할 확률
정답: b) 전체 거래 중 항목 A와 B를 동시에 포함한 거래의 비율
'데이터베이스에서 'OLAP(Online Analytical Processing)'의 주요 특징이 아닌 것은?
a) 다차원 데이터 분석
b) 실시간 트랜잭션 처리
c) 대규모 데이터 요약
d) 의사 결정 지원
정답: b) 실시간 트랜잭션 처리
'데이터 분석에서 '편향-분산 트레이드오프(Bias-Variance Tradeoff)'와 관련하여 올바른 것은?
a) 모델의 복잡도가 증가할수록 편향은 감소하고 분산은 증가하는 경향이 있다
b) 편향과 분산은 항상 반비례 관계에 있다
c) 과적합된 모델은 높은 편향과 낮은 분산을 보인다
d) 과소적합된 모델은 낮은 편향과 높은 분산을 보인다
정답: a) 모델의 복잡도가 증가할수록 편향은 감소하고 분산은 증가하는 경향이 있다
'데이터 마이닝에서 '의사결정 트리(Decision Tree)' 알고리즘의 장점이 아닌 것은?
a) 결과 해석이 용이하다
b) 수치형과 범주형 변수를 모두 처리할 수 있다
c) 비선형 관계도 모델링할 수 있다
d) 항상 전역 최적해를 찾는다
정답: d) 항상 전역 최적해를 찾는다
'텍스트 마이닝에서 '워드 임베딩(Word Embedding)'의 대표적인 알고리즘은?
a) K-means
b) Word2Vec
c) Apriori
d) DBSCAN
정답: b) Word2Vec
'데이터 분석에서 '교차 엔트로피(Cross-Entropy)'가 주로 사용되는 상황은?
a) 회귀 문제의 손실 함수
b) 분류 문제의 손실 함수
c) 클러스터링의 평가 지표
d) 특성 선택의 기준
정답: b) 분류 문제의 손실 함수
'빅데이터 분석에서 '스파크(Spark)'의 주요 특징이 아닌 것은?
a) 인메모리 처리
b) 배치 처리와 실시간 처리 지원
c) 다양한 프로그래밍 언어 인터페이스 제공
d) 관계형 데이터베이스 관리 시스템
정답: d) 관계형 데이터베이스 관리 시스템
'데이터 분석에서 '혼동 행렬(Confusion Matrix)'을 통해 계산할 수 있는 지표가 아닌 것은?
a) 정밀도(Precision)
b) 재현율(Recall)
c) F1 점수
d) R-제곱(R-squared)
정답: d) R-제곱(R-squared)