ML/DL 기술 면접 질문 리스트

soyoung·2025년 7월 6일

1. 머신러닝과 딥러닝의 차이는?

머신러닝은 주어진 데이터를 바탕으로 패턴을 학습해 예측하거나 분류하는 기술로, 특징 추출과 학습이 분리되어 있습니다. 딥러닝은 다층 신경망을 기반으로 특징 추출부터 예측까지 자동으로 처리하며, 복잡한 문제에 강합니다. 즉, 머신러닝은 사람이 특징을 설계해야 하지만, 딥러닝은 이를 스스로 학습합니다.

2. 과적합과 과소적합의 차이는?

과적합은 모델이 학습 데이터에 너무 맞춰져서 새로운 데이터에 일반화가 안 되는 경우고, 과소적합은 모델이 너무 단순해 학습조차 제대로 못하는 상태입니다. 과적합은 정규화, Dropout 등으로 완화하고, 과소적합은 모델 복잡도나 학습량을 늘려 해결할 수 있습니다.

3. 바이어스-분산 트레이드오프란?

바이어스는 모델이 단순해 데이터의 복잡한 패턴을 잘 설명하지 못하는 경우 발생하며, 분산은 모델이 너무 복잡해 작은 변화에도 민감하게 반응하는 경우를 뜻합니다. 바이어스를 줄이면 분산이 커지고, 분산을 줄이면 바이어스가 커집니다. 두 요소는 서로 상반되기 때문에, 적절한 균형을 찾아야 좋은 일반화 성능을 얻을 수 있습니다.

4. 지도학습과 비지도학습의 차이는?

지도학습은 입력과 그에 대한 정답(label)이 주어진 데이터를 학습하여 예측하는 방식이며, 주로 분류나 회귀 문제에 사용됩니다. 비지도학습은 정답이 없는 데이터를 분석해 패턴이나 구조를 발견하는 방식으로, 군집화나 차원 축소 등에 사용됩니다.

5. 강화학습이란?

강화학습은 에이전트가 환경과 상호작용하면서 보상을 최대화하기 위한 최적의 행동을 학습하는 방법입니다. 강화학습의 핵심은 보상(reward), 상태(state), 행동(action), 정책(policy), 가치 함수(value function) 등으로 구성되며, 대표적으로 게임 AI, 로봇 제어, 자율주행 분야에 많이 활용됩니다.

6. SVM은 어떻게 작동하는지?

SVM은 데이터 포인트를 분류하기 위해 마진이 최대가 되는 결정 경계를 찾는 분류 알고리즘입니다. 학습 과정에서는 서포트 벡터라는 중요한 샘플들을 기준으로 경계를 정하며, 커널 기법을 활용하면 비선형 문제에도 효과적으로 적용할 수 있습니다.

7. 결정 트리 vs 랜덤 포레스트?

결정 트리는 데이터의 특정 속성을 기준으로 조건을 분기하면서 예측을 수행하는 구조로 해석이 쉬우나 과적합 위험이 있습니다. 랜덤 포레스트는 여러 결정 트리를 앙상블 방식으로 결합해 예측 정확도를 높이고 과적합 문제를 완화한 모델입니다.

8. KNN의 단점은?

KNN은 학습 없이 예측 시점에 데이터를 비교해 분류하는 방식이라, 계산량이 많고 속도가 느릴 수 있습니다. 특히 데이터 차원이 높아질수록 거리 계산의 의미가 희미해지는 ‘차원의 저주’ 문제가 발생할 수 있습니다.

9. 차원의 저주란?

차원의 저주는 데이터의 특성 수(차원)가 많아질수록 데이터가 희소해지고 거리 기반 알고리즘의 성능이 급격히 떨어지는 현상입니다. 이를 해결하기 위해서는 PCA나 오토인코더와 같은 차원 축소 기법을 사용합니다.

10. 로지스틱 회귀와 선형 회귀의 차이는?

선형 회귀는 연속적인 수치를 예측하는 데 사용되며, 로지스틱 회귀는 분류 문제를 해결하기 위한 알고리즘입니다. 로지스틱 회귀는 선형 회귀 결과에 시그모이드 함수를 적용해 0~1 사이의 확률로 바꾸고, 이를 바탕으로 클래스 예측을 수행합니다. 로지스틱 회귀는 이름에 '회귀'가 들어가 있지만 실제로는 이진 분류 모델이라는 점이 중요한 차이입니다.

11. CNN의 구조와 역할은?

CNN(Convolutional Neural Network)은 주로 이미지 처리에 사용되는 딥러닝 모델로, 합성곱 계층(Convolution), 풀링 계층(Pooling), 완전 연결 계층(Fully Connected)으로 구성됩니다. 합성곱 계층은 지역적인 특징을 추출하고, 풀링은 정보의 압축 및 계산량 감소를 담당하며, 마지막으로 완전 연결층에서 분류를 수행합니다. 특징 추출과 분류를 동시에 학습할 수 있어 이미지 분류나 객체 탐지에 효과적입니다.

12. RNN과 LSTM의 차이는?

RNN(Recurrent Neural Network)은 시퀀스 데이터를 처리하기 위한 구조로, 과거 정보를 기억하며 순차적으로 학습합니다. 그러나 시간이 지날수록 기울기 소실 문제가 발생해 장기 의존성을 학습하기 어렵다는 한계가 있습니다. LSTM(Long Short-Term Memory)은 이를 보완하기 위해 게이트 구조를 도입하여 장기 정보를 잘 유지할 수 있도록 설계된 RNN의 확장 모델입니다.

13. Dropout이란?

Dropout은 학습 중 일부 뉴런을 임의로 제거하여 학습에 참여시키지 않음으로써 과적합을 방지하는 정규화 기법입니다. 학습 시에는 랜덤하게 뉴런을 끄고, 테스트 시에는 모든 뉴런을 사용합니다. 이로 인해 네트워크가 특정 뉴런에만 의존하지 않게 되어 더 일반화된 모델이 됩니다.

14. 활성화 함수는 왜 필요한가?

활성화 함수는 신경망에 비선형성을 부여하는 역할을 합니다. 만약 활성화 함수가 없다면, 여러 층을 쌓더라도 선형 변환만 반복되기 때문에 복잡한 함수는 학습할 수 없습니다. ReLU, Sigmoid, Tanh 등이 자주 사용되며, 특히 ReLU는 계산이 간단하고 기울기 소실 문제를 완화해 자주 사용됩니다.

15. 배치 정규화(Batch Normalization)의 목적은?

배치 정규화는 학습 중 각 층의 입력 분포가 크게 바뀌는 것을 방지하고, 학습 속도를 빠르게 하며 과적합도 줄이는 역할을 합니다. 입력값을 평균 0, 분산 1로 정규화하고, 이후 학습 가능한 스케일 및 시프트 파라미터를 곱해 모델이 적절한 표현을 학습할 수 있도록 돕습니다.

16. Cross Entropy Loss는 어떤 의미인가?

Cross Entropy Loss는 실제 정답 분포와 모델의 예측 분포 사이의 차이를 측정하는 손실 함수입니다. 주로 분류 문제에 사용되며, 정답 클래스의 확률이 높게 예측될수록 손실이 작아집니다. 이 함수는 예측이 정답에서 멀어질수록 벌점을 크게 주는 특성이 있어 분류 성능 향상에 효과적입니다.

17. 딥러닝에서 학습률이 중요한 이유?

학습률(Learning Rate)은 모델이 얼마나 빠르게 또는 천천히 가중치를 업데이트할지를 결정하는 중요한 하이퍼파라미터입니다. 학습률이 너무 크면 최적값을 지나쳐 발산할 수 있고, 너무 작으면 수렴 속도가 느려지거나 지역 최솟값에 머물 수 있습니다. 적절한 학습률을 설정하거나, 학습률 스케줄링 기법을 활용하는 것이 중요합니다.

18. 모델 성능 평가 지표는 어떤 것들이 있는지?

모델의 성능 평가는 문제 유형에 따라 달라집니다. 분류 문제에서는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-score, AUC 등이 사용되고, 회귀 문제에서는 평균제곱오차(MSE), 평균절대오차(MAE), RMSE 등이 사용됩니다. 여러 지표를 함께 고려해야 모델의 전반적인 성능을 정확히 파악할 수 있습니다.

19. Confusion Matrix란?

Confusion Matrix는 분류 모델이 예측한 결과와 실제 정답 간의 관계를 표 형태로 나타낸 것입니다. 이진 분류의 경우 참 긍정(TP), 거짓 긍정(FP), 참 부정(TN), 거짓 부정(FN)으로 구성되며, 이를 통해 정밀도나 재현율 같은 다양한 성능 지표를 계산할 수 있습니다.

20. 하이퍼파라미터 튜닝 방법은 어떤 것이 있는지?

하이퍼파라미터 튜닝은 모델 성능을 최적화하기 위한 과정입니다. 대표적인 방법으로는 Grid Search(모든 조합 탐색), Random Search(무작위 조합 탐색), 그리고 Bayesian Optimization(확률 기반 최적화 기법)이 있습니다. 최근에는 Optuna, HyperOpt 같은 자동화 도구를 활용하여 효율적으로 튜닝하는 경우도 많습니다.

21. 경사하강법(Gradient Descent)이란?

경사하강법은 손실 함수의 값을 최소화하기 위해 기울기(그래디언트)를 따라 파라미터를 반복적으로 업데이트하는 최적화 기법입니다. 가장 기본적인 형태는 배치 전체를 사용하는 방식이며, 실제로는 계산 효율을 위해 미니배치 방식이나 확률적 경사하강법(SGD)이 자주 사용됩니다. 딥러닝에서 가장 널리 쓰이는 핵심 기법 중 하나입니다.

22. Adam 옵티마이저란?

Adam은 경사하강법의 한 변형으로, 모멘텀(momentum)과 RMSProp의 장점을 결합한 최적화 알고리즘입니다. 각 파라미터의 이전 기울기 및 제곱 기울기를 활용해 적응적으로 학습률을 조정하며, 일반적으로 빠른 수렴과 안정적인 성능을 제공합니다. 대부분의 딥러닝 프레임워크에서 기본 옵티마이저로 자주 사용됩니다.

23. 초기 가중치 설정이 중요한 이유는?

가중치 초기값이 적절하지 않으면 학습이 잘 되지 않거나, 기울기 소실/폭주 문제가 발생할 수 있습니다. 예를 들어, 모든 가중치를 0으로 초기화하면 뉴런이 동일하게 업데이트되어 학습이 되지 않습니다. 따라서 Xavier 초기화나 He 초기화 같은 방법을 통해 층의 특성에 맞는 적절한 분산으로 가중치를 설정하는 것이 중요합니다.

24. 전이학습(Transfer Learning)이란?

전이학습은 이미 학습된 모델의 가중치를 새로운 문제에 일부 또는 전부 재사용하는 학습 방식입니다. 데이터가 적거나 학습 시간이 제한된 상황에서도 높은 성능을 얻을 수 있다는 장점이 있습니다. 주로 이미지 분류에서는 사전 학습된 CNN 모델을 활용하고, 자연어 처리에서는 BERT, GPT 등에서 많이 사용됩니다.

25. Fine-tuning과 Feature Extraction의 차이?

Fine-tuning은 사전학습된 모델의 일부 또는 전체 파라미터를 새로운 데이터에 맞게 다시 학습시키는 방식입니다. 반면 Feature Extraction은 사전학습된 모델의 특징 추출 부분만 사용하고, 그 위에 별도의 분류기나 예측기를 얹는 방식입니다. 데이터 크기나 계산 자원에 따라 선택적으로 사용됩니다.

26. 앙상블 기법이란?

앙상블은 여러 개의 모델을 결합해 예측 성능을 높이는 기법입니다. 대표적인 방식으로는 Bagging(대표적으로 Random Forest), Boosting(대표적으로 XGBoost, LightGBM), Stacking 등이 있으며, 단일 모델보다 일반적으로 더 좋은 성능을 보입니다. 서로 다른 성질의 모델을 조합할수록 효과가 커질 수 있습니다.

27. 오토인코더(AutoEncoder)의 활용?

오토인코더는 입력을 압축한 뒤 복원하는 방식으로 학습하는 비지도 신경망 구조입니다. 주로 차원 축소, 노이즈 제거, 이상 탐지 등에 활용되며, 중간에 생성되는 ‘잠재 벡터(latent vector)’는 데이터의 핵심 특징을 잘 담고 있어 이후 다른 모델에서 특징으로 사용할 수도 있습니다.

28. GAN의 원리는?

GAN(Generative Adversarial Network)은 생성자(Generator)와 판별자(Discriminator)가 서로 경쟁하며 학습하는 구조입니다. 생성자는 가짜 데이터를 만들고, 판별자는 진짜와 가짜를 구분합니다. 두 모델이 동시에 학습되면서 점점 더 진짜 같은 데이터를 생성하게 됩니다. 이미지 생성, 스타일 변환, 데이터 보강 등 다양한 분야에서 활용됩니다.

29. 트랜스포머 모델의 핵심 개념은?

트랜스포머는 시퀀스 데이터를 처리하기 위해 고안된 모델로, RNN이나 CNN을 사용하지 않고 Self-Attention 메커니즘을 통해 문맥 정보를 병렬적으로 처리할 수 있습니다. 이 구조는 학습 속도가 빠르고 긴 거리의 의존 관계도 효과적으로 반영할 수 있어, BERT, GPT와 같은 대형 언어 모델의 기반이 되었습니다.

30. AI 모델의 배포는 어떻게 이루어지는가?

AI 모델을 실서비스에 적용하기 위해서는 배포(Serving) 과정이 필요합니다. 일반적으로는 학습된 모델을 API 형태로 제공하며, Flask나 FastAPI 같은 웹 프레임워크를 사용합니다. 또한 ONNX나 TensorRT를 활용해 모델을 경량화하고, AWS SageMaker, GCP AI Platform 등 클라우드 환경에서 배포 및 확장성을 확보하는 경우도 많습니다.

soyoung

이전 포스트